新零售网 > 品牌 >

连百年梗图都整明白了,微软多模态「宇宙」搞定IQ测试,仅16亿参数

来源:IT之家 发布时间:2023-03-04 18:19   阅读量:11879   

微软亚研院发布了仅 16 亿参数的多模态大型语言模型 KOSMOS-1,不仅能看图回答,还搞定了瑞文智商测试。

大模型的卷,已经不睡觉都赶不上进度了......

这不,微软亚研院刚刚发布了一个多模态大型语言模型—— KOSMOS-1。

论文题目 Language Is Not All You Need,还得源于一句名言。

文中有这么一句话,「我语言的局限,就是我世界的局限。—— 奥地利哲学家 Ludwig Wittgenstein」

那么问题来了......

拿着图问 KOSMOS-1「是鸭还是兔」能搞明白吗?这张有 100 多年历史的梗图硬是把谷歌 AI 整不会了。

1899 年,美国心理学家 Joseph Jastrow 首次使用「鸭兔图」来表明感知不仅是人们所看到的,而且是一种心理活动。

现在,KOSMOS-1 便能将这种感知和语言模型相结合。

-图中是什么?

-像一只鸭子。

-如果不是鸭子,那是什么?

-看起来更像兔子。

-为什么?

-它有兔子的耳朵。

这么一问,KOSMOS-1 真有点像微软版的 ChatGPT 了。

不仅如此,Kosmos-1 还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉 QA。

甚至 IQ 测试也不在话下。

「宇宙」无所不能

据论文介绍,最新 Kosmos-1 模型是一个多模态大型语言模型。

其主干是一个基于 Transformer 的因果语言模型,除了文本之外,其他模态,如视觉、音频都可以嵌入模型。

Transformer 解码器用作多模态输入的通用接口,因此它能感知一般模态,进行上下文学习,并遵循指令。

Kosmos-1 在语言和多模态任务上取得了令人印象深刻的表现,无需进行微调,其中包括带有文字指示的图像识别、视觉问答和多模态对话。

如下是 Kosmos-1 生成一些例子式样。

那么,Kosmos-1 是在哪些数据集上进行预训练的呢?

训练所用的数据库,包括文本语料库、图像-字幕对、图像和文本交叉数据集。

文本语料库取自 The Pile 和 Common Crawl;

数据库有了,接下来就是对模型进行预训练了。

MLLM 组件有 24 层、2,048 个隐藏维度、8,192 个 FFN 和 32 个注意力头头,产生了大约 1.3B 的参数。

为了保证优化的稳定性,采用 Magneto 初始化;为了更快地收敛,图像表示是从一个预先训练好的具有 1024 个特征维度的 CLIP ViT-L / 14 模型获取的。在训练过程中,图像被预处理成 224×224 分辨率,CLIP 模型的参数除了最后一层均被冻结。

KOSMOS-1 的参数总量约为 16 亿。

为了使 KOSMOS-1 更好地与指令保持一致,对其进行了只用语言的指令调整 ,即用指令数据继续训练模型,该指令数据是仅有的语言数据,与训练语料库混合。

该调优过程是按照语言建模的方式进行的,选取的指令数据集为 Unnatural Instructions 和 FLANv2 (LHV+23)。

结果显示,指令跟随能力的提高可以跨模式转移。

总之,MLLM 可以从跨模态迁移中获益,将知识从语言迁移到多模态,反之亦然;

5 大类 10 个任务,都拿捏了

一个模型好不好使,拿出来溜溜就知道了。

研究团队从多角度进行实验来评价 KOSMOS-1 的性能,包括 5 大类十项任务:

1 语言任务

2 多模态转移

3 非语言推理

4 感知-语言任务

5 视觉任务

无 OCR 的文本分类

这是一种不依赖于光学字符识别的专注于文本和图像的理解任务。

KOSMOS-1 对 HatefulMemes 和对 Rendered SST-2 测试集的准确率均高于优于其他模型。

而且 Flamingo 明确提供 OCR 文本到提示中,KOSMOS-1 并没有访问任何外部工具或资源,这展示了 KOSMOS-1 阅读和理解渲染的图像中的文本的内在能力。

IQ 测试

瑞文智力测试是评估非语言的最常用测试之一。

KOSMOS-1 在没有进行微调时准确率比随机选择提高了 5.3%,经过微调后则提高了 9.3%,表明其具有感知非语言环境中的抽象概念模式的能力。

这是首次有模型能够完成零样本 Raven 测试,证明了 MLLMs 通过将感知与语言模型结合起来进行零样本非言语推理的潜力。

图像说明

KOSMOS-1 在 COCO 和 Flickr30k 测试中的零样本性能均表现优秀,相比其他模型,其得分更高,但采用的参数量更小。

在少样本性能测试中,得分随着 k 值增大有所增加。

零样本图像分类

给定一个输入图像,并将该图像与提示 「The photo of the」连接起来。然后,输入模型以获得图像的类别名称。

通过在 ImageNet 上评估该模型,在有约束和无约束的条件下,KOSMOS-1 的图像归类效果都明显优于 GIT (WYH+22),展现了完成视觉任务的强大能力。

常识推理

视觉常识推理任务要求模型理解现实世界中日常物体的属性,如颜色、大小和形状,这些任务是具有挑战性的,因为它们可能需要比文本中更多的关于物体属性的信息。

结果显示,KOSMOS-1 在尺寸和颜色方面的推理能力都明显好于 LLM 模型。这主要是因为 KOSMOS-1 具备多模态迁移能力,从而能够将视觉知识运用到语言任务中,而不必像 LLM 那样必须依靠文本知识和线索来推理。

对于微软 Kosmos-1,网友称赞道,未来 5 年,我可以看到一个高级机器人浏览网络,并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。

参考资料:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

专家提醒养肝需方法看Enervite澳乐维他护肝片护肝产品“真功 2023-03-04 18:13

华仪电子隆重推出全新SCI产品线,让电气安全测试更加得心应手 2023-03-04 18:10

切实发挥保险保障"稳定器"作用,招商信诺人寿助力上海复工复产 2023-03-04 17:58

十堰市太和医院心理卫生中心荣获“高级心身医学整合诊疗中心”称号 2023-03-04 17:32

腾讯云与共青城签署战略合作协议,携手打造全国首个百亿云上生态园 2023-03-04 17:22

悦康药业聚焦创新人才培养助力研发、推出国内首款原研爱地那非 2023-03-04 16:33

康泰生物与阿斯利康签署中国内地市场独家授权合作框架协议 2023-03-04 16:27

剔除商誉减值影响,盈康生命2022年预计净利润0.37-2.27 2023-03-04 15:36

华为Mate10、P20系列开启鸿蒙HarmonyOS3Beta 2023-03-04 14:52

7月份全国50家重点大型零售企业零售额同比下降1.3% 2023-03-04 14:34

胶原蛋白十大排行榜你买过吗 2023-03-04 14:29

联想GeekProG5000游戏本可选RTX4060,115WG 2023-03-04 13:42

东风自研新一代氢元H2?One130kW燃料电池系统完成公告 2023-03-04 13:31

“实体门店+即时配送”模式,助推了实体经济的向前演进! 2023-03-04 13:21

全球二手零售市场2022年将增长24%到2026年规模突破200 2023-03-04 12:29

新ChatGPT必应回归,三种人格一键切换,亲测全是亮点 2023-03-04 12:23

OPPOK95G手机开启安卓13/ColorOS13.0第二波升 2023-03-04 11:18

Minisforum新款HX80G迷你主机开卖:R75800H+ 2023-03-04 10:49

联想IdeaPadDuet3i二合一笔记本图赏:N系列全小核处理 2023-03-04 10:04

金士顿推出新款DTXON闪存盘:滑盖设计,64GB47.9元 2023-03-04 10:02