您现在的位置是:登山小鲁网 > 知识
阿里开源首个视觉推理模型
登山小鲁网2026-01-04 18:20:06【知识】0人已围观
简介过年了!阿里今年送了最后一份礼物——QVQ的“眼睛”模型,V代表视觉。它可以通过阅读图像和指令来开始思考。I’m watching you!据报道,这可能是世界上第一个视觉推理模型,也可以理解为阿里o
过年了!阿里阿里今年送了最后一份礼物——
QVQ的开源“眼睛”模型,V代表视觉。首个视觉它可以通过阅读图像和指令来开始思考。推理

I’m watching you!模型
据报道,阿里这可能是开源世界上第一个视觉推理模型,也可以理解为阿里o1模型QWQ上个月开源的首个视觉视觉版本。

可以解决数物化生等各个领域的推理问题。

读梗图,模型数鸭子也不在话下。阿里

该模型目前正处于开放测试的开源实验阶段。

结果可能是首个视觉因为访问太多,网页一度还是推理404。

从性能上看,模型QVQ在性能上MMMU 上的得分为 70.3,超过GPT-4o、Claude 3.5 Sonnet,但是比o1模型还差一点。

阿里巴巴开源首个视觉推理模型
官方给了几个演示Demo,让我们好好感知一下它的推理能力。
让我们先来看看这个数学题。

再来一个几何题,算算这个沙发的面积。

高中化学问题:图片中的滤液E是什么化学物质?

答案是:硫酸亚铁溶液。
他们在四个数据集中评估了眼睛模型QVQ-72B-Preview,包括MMU、MathVista、MathVision、OlympiadBench,主要考察数学多模态推理和综合理解推理的能力。
QVQ-72B-Preview MMMU 在基准测试中得了70.3分,大大超过了前身 Qwen2-VL-72B-Instruct。
此外,在数学和科学问题的其他三个基准测试中,该模型也表现出了出色的性能,缩小了与o1模型的差距。

但目前该模型属于团队实验研究模型,不是特别稳定,需要注意几个限制。
语言混合和代码切换:该模型可能会意外地混合语言或在语言之间切换,从而影响答案的清晰度。
递归推理:模型可能会陷入循环逻辑模式,产生冗长的回复,无法得出结论。
考虑安全和道德:该模型需要加强安全措施,以确保可靠和安全的性能,用户在部署时应谨慎。
性能和基准限制:虽然该模型在视觉推理方面得到了改进,但它不能完全取代它 Qwen2-VL-72B-Instruct 功能。此外,在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
好好预防针,那我们浅测一波。
比如这个考验谷歌版o1的题目:
如何将这些数字加起来等于30?

结果它识别了这些球对应的数字,没有意识到9号球可以翻转成6号球,然后陷入了无尽的思考。。。
在blog的最后,他们还透露了下一个目标——增强视觉语言的基本模型,使其具有基于视觉信息进行深入思考和推理的先进能力。
延长时间,他们计划将更多的模式集成到统一的模型中,以应对复杂的挑战,参与科学探索。
(模型的尽头是AI For Science?)
参考链接:
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/
来源:量子位
很赞哦!(8)
站长推荐
友情链接
- 猫吃烟丝是什么原因?揭开猫咪的这一怪异行为
- 摸猫什么原因:揭秘猫咪与人类的温馨互动
- 猫发胖什么原因?揭开猫咪“圆润”之谜
- 怎么照顾猫咪坐月子:温馨护理指南
- 猫咪洗澡跳蚤怎么办:宠物护理小妙招
- 猫变凶什么原因?揭开猫咪性格突变之谜
- 怎么证明猫咪怀孕了?揭开猫咪孕期的小秘密
- 我怕猫是什么原因?揭开对猫咪的恐惧之谜
- 猫咪不咕噜咕噜叫:探究背后的情感密码
- 猫咪不吃东西精神很好:揭秘背后的原因与对策
- 猫和猫干架是什么原因?揭秘猫咪间的“战争”秘密
- 猫咪急性腹膜炎:宠物的生命危机与关爱之道
- 猫咪不小心吃葱:宠物护理中的小意外
- 猫咪不可以散养:守护小生命的安全与幸福
- 猫咪不小便怎么办?——揭开宠物健康的秘密
- 猫咪101:短毛土猫的魅力
- 怎么看猫咪的大小:揭开猫咪成长的奥秘
- 怎么样看猫咪年龄:揭秘猫咪的年龄密码







