开云官网kaiyunac米兰赞助商 「中国」官方网站 登录入口

开云体育平直处理查询而不磋议多模态信息-开云官网kaiyunac米兰赞助商 「中国」官方网站 登录入口
发布日期:2025-07-09 08:03    点击次数:191

智东西

编译 | 程茜

剪辑 | 心缘

AI能听懂你的“话外音”了?

智东西7月8日消息,近日,阿里通义实验室开源多模态推理模子HumanOmniV2。

HumanOmniV2通过引入强制高下文转头机制、大模子运转的多维度奖励体系,以及基于GRPO的优化覆按行径,已毕了对多模态信息的全面富厚,使得模子不会错过图像、视频、音频中的遮盖信息,一定进度上规避其在全局高下文富厚不及和推理旅途简短上的问题。

如在生成最终谜底前,模子会输出一个<context>标签内的高下文概述,系统性分析多模态输入试验中的视觉、听觉、语讯息号,为后头的推理经过提供依据。如下图发问“女东说念主为什么翻冷眼”,HumanOmniV2基于视频、音频等信息给出正确谜底“她的翻冷眼更像是对一个潜在明锐话题的夸张、俏皮的反应,非对其他东说念主示意不悦”。

现阶段HumanOmniV2已开源。阿里通义团队还推出包含633个视频和2689个臆测问题的评测基准IntentBench,在此之上,HumanOmniV2准确率达到69.33%。

论文:https://arxiv.org/abs/2506.21277

GitHub:https://github.com/HumanMLLM/HumanOmniV2

魔搭社区:https://modelscope.cn/models/iic/humanomniv2

Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2

IntentBench评测基准:https://huggingface.co/datasets/PhilipC/IntentBench

一、集会高下文、音视频布景信息,读懂东说念主物的“话外音”

笔据上头视频的试验,当参谋模子“视频中的东说念主畴前一年中最记得的阅历是什么?视频中的东说念主在回答问题时是否在撒谎?”时。

基于GRPO的模子,通过演讲东说念主的肢体语言、面部脸色判断其莫得说谎,HumanOmniV2而是集会了视频中东说念主物所处的环境、口吻,并集会视觉、听觉成分综合判断,得出了他莫得说出一齐最记得阅历的谜底。

第二个视频是一段电视采访节目,发问模子“这两个东说念主的关系”并给出了4个选项。

HumanOmniV2在推理经过中,会拿获多模态输入中更为细粒度的视频和音频陈迹,如“黑裙女子以安心和善的口吻回话”、“刻意减速语言速率以缓解垂死脸色”、“浅蓝色衬衫的男东说念主用快速而鼎沸的口吻语言”等。

第三个视频让模子判断视频中男人的主要脸色。

HumanOmniV2的回话是无奈、盛怒,基于GRPO的模子的回答仅有盛怒。HumanOmniV2通过集会视频中东说念主物的叹惜、垂死脸色,判断他除了盛怒还处于一种无法处理面前事态的无奈情景。

二、多模态模子推理两大瓶颈:高下文富厚不及、无法深度逻辑推理

现存多模态推理模子存在两个问题:全局高下文富厚不及和推理旅途简短,衰退深度逻辑推理问题。

高下文富厚不及是指模子扭曲多模态高下文,从而生成乌有谜底;推理旅途简短问题是指模子忽略多模态输入中的重要陈迹,平直处理查询而不磋议多模态信息。

举例不才面场景中,多模态大模子只听到了“不错作念一又友”,忽略了“头巾=不是基督徒=不聚会”逻辑链。

此外,在判断男士脸色时,模子基于“不错作念一又友”这句看似积极的话,疏远潜在的视觉、听觉陈迹:男士可能出现的嘴角下垂/眼力躲避、女士说“可能不成”后的3秒千里默、东说念主类酬酢中的矛盾信号。

受DeepSeek-R1启发,诸多多模态模子的推理给与GRPO算法,也即是给定一个多模态输入和一个问题,促使多模态模子生成一个可得出谜底的推理链,但是平直给与GRPO的模子会严重依赖文本推理,忽略丰富的多模态陈迹过甚全面的富厚。

三、大模子运转的多维度奖励,打造全模态推理覆按数据集、基准测试

在此基础上,阿里通义团队条目模子基于对多模态输入中全局高下文的精确富厚进行推理。

基于此,模子当先在<context>输出高下文信息,这不错珍贵模子绕过重要的多模态输入信息,并为其随后的推理经过提供依据。举例,当有东说念主说“no”时,唯有在完竣的高下文中,模子智力细则它是阻隔、打趣还是反向央求。

为了确保模子准确富厚多模态高下文信息,磋议东说念主员还引入了大模子运转的多维度奖励机制,包括高下文奖励、模式奖励、准确性奖励和逻辑奖励。

高下文奖励是让大模子比拟参考高下文和模子输出之间的一致性评估,交流模子提高对高下文的富厚,模式奖励确保其输出试验合乎结构化条目,准确性奖励用来普及模子回答的正确率,逻辑奖励是评估推理经过是否整合了多模态信息并集会了逻辑分析时期,如反射、演绎和归纳。

同期,阿里通义团队基于Qwen2.5-Omni-Thinker架构,对GRPO进行了多项翻新:

包括引入词元级亏欠(Token-level Loss),处理长序列覆按中常见的抗击衡问题;移除问题级归一化项,幸免不同难度样本之间的权重偏差;诓骗动态KL散度机制,在覆按初期饱读吹探索,在后期踏实赓续,普及模子的泛化才略和覆按踏实性。

在数据方面,多模态模子进行推理的挑战还在于衰退大边界东说念主工标注推理数据,因此,阿里通义团队开采了一个全模态推理覆按数据集,交融了图像、视频和音频等任务的高下文信息。

另一大挑战是衰退臆测基准来灵验评估其性能,为此磋议东说念主推出推理全模态基准测试IntentBench,旨在评估模子富厚复杂东说念主类意图和情谊的才略。它包括633个视频和2689个与视频中的听觉和视觉陈迹臆测的问题。这个基准需要模子对公共布景有长远的富厚和推理、仔细的不雅察和复杂的社会关系。

在此基础上,阿里通义团队开源的HumanOmniV2,它在开源全模态模子中得到了最好性能,在一般感知场景测试集Daily-Omni上得分为58.47%,在一般感知场景测试集WorldSense上得分为47.1%,在IntentBench上得分为69.33%。

结语:阿里连接开源,为AI富厚东说念主类复杂意图提供参考

阿里通义团队在多模态模子方面的探索,镌汰了模子在推理经过中出现乌有的可能性,为AI在富厚和建模东说念主类复杂意图方面提供了参考。但其论文也提到,这种反映模式可能戒指模子在接下来的念念考经过中矫正高下文信息的才略,再加上其基于7B模子进行实验,有无法在参数边界更大的模子中保证一致性的风险。

未来跟着高下文和预覆按边界的扩大开云体育,阿里通义团队将探索在推理经过中对多模态信息进行多重考证的行径,以提高准确性。



上一篇:开云体育舍甫琴科锂矿床领有欧洲最大的锂矿-开云官网kaiyunac米兰赞助商 「中国」官方网站 登录入口
下一篇:开云体育她有一套坚抓了近40年的海藻发养护教程-开云官网kaiyunac米兰赞助商 「中国」官方网站 登录入口