(资料图片)
继今年7月在2023世界人工智能(161631)大会发起成立“中国大模型语料数据联盟”,上海人工智能(161631)实验室于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。(上证报)
关键词:
资讯
初级
隆基绿能08月16日被沪股通减持1201.75万股
漫画大全动车里被老师
广州天河“小候鸟”变身文化体验官,在游历中传承广府文化
家电芯片迎“破局者”:MCU巨头建首家应用实验室!
黄白玉老产地
各地多措并举强化秋粮作物田间管理
建仓期基金面临“夭折”风险 老牌公募申万菱信基金困局待解
暴风影音播放器电脑版下载安装包(暴风影印)
太原这里,“废弃矿山”华丽变身“山顶花园”!