您现在的位置是：登山小鲁网 > 知识

阿里开源首个视觉推理模型

登山小鲁网2026-01-04 18:20:06【知识】0人已围观

简介过年了！阿里今年送了最后一份礼物——QVQ的“眼睛”模型，V代表视觉。它可以通过阅读图像和指令来开始思考。I’m watching you！据报道，这可能是世界上第一个视觉推理模型，也可以理解为阿里o

过年了！阿里阿里今年送了最后一份礼物——

QVQ的开源“眼睛”模型，V代表视觉。首个视觉它可以通过阅读图像和指令来开始思考。推理

I’m watching you！模型

据报道，阿里这可能是开源世界上第一个视觉推理模型，也可以理解为阿里o1模型QWQ上个月开源的首个视觉视觉版本。

可以解决数物化生等各个领域的推理问题。

读梗图，模型数鸭子也不在话下。阿里

该模型目前正处于开放测试的开源实验阶段。

结果可能是首个视觉因为访问太多，网页一度还是推理404。

从性能上看，模型QVQ在性能上MMMU 上的得分为 70.3，超过GPT-4o、Claude 3.5 Sonnet，但是比o1模型还差一点。

阿里巴巴开源首个视觉推理模型

官方给了几个演示Demo，让我们好好感知一下它的推理能力。

让我们先来看看这个数学题。

再来一个几何题，算算这个沙发的面积。

高中化学问题：图片中的滤液E是什么化学物质？

答案是：硫酸亚铁溶液。

他们在四个数据集中评估了眼睛模型QVQ-72B-Preview，包括MMU、MathVista、MathVision、OlympiadBench，主要考察数学多模态推理和综合理解推理的能力。

QVQ-72B-Preview MMMU 在基准测试中得了70.3分，大大超过了前身 Qwen2-VL-72B-Instruct。

此外，在数学和科学问题的其他三个基准测试中，该模型也表现出了出色的性能，缩小了与o1模型的差距。

但目前该模型属于团队实验研究模型，不是特别稳定，需要注意几个限制。

语言混合和代码切换：该模型可能会意外地混合语言或在语言之间切换，从而影响答案的清晰度。

递归推理：模型可能会陷入循环逻辑模式，产生冗长的回复，无法得出结论。

考虑安全和道德：该模型需要加强安全措施，以确保可靠和安全的性能，用户在部署时应谨慎。

性能和基准限制：虽然该模型在视觉推理方面得到了改进，但它不能完全取代它 Qwen2-VL-72B-Instruct 功能。此外，在多步视觉推理过程中，模型可能会逐渐失去对图像内容的关注，导致幻觉。

好好预防针，那我们浅测一波。

比如这个考验谷歌版o1的题目:

如何将这些数字加起来等于30？

结果它识别了这些球对应的数字，没有意识到9号球可以翻转成6号球，然后陷入了无尽的思考。。。

在blog的最后，他们还透露了下一个目标——增强视觉语言的基本模型，使其具有基于视觉信息进行深入思考和推理的先进能力。

延长时间，他们计划将更多的模式集成到统一的模型中，以应对复杂的挑战，参与科学探索。

(模型的尽头是AI For Science？）

参考链接：
[1]https://x.com/Alibaba_Qwen/status/1871602879972405626
[2]https://qwenlm.github.io/blog/qvq-72b-preview/

来源：量子位

很赞哦!（8）