HumanOmniV2 : De la compréhension au raisonnement omni-modal en contexte
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Auteurs: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Résumé
Avec l'évolution rapide des modèles de langage multimodaux de grande envergure, la capacité à comprendre et interpréter profondément les intentions humaines est devenue une compétence critique, nécessitant un raisonnement détaillé et réfléchi. Dans les études récentes, l'apprentissage par renforcement (Reinforcement Learning, RL) a démontré un potentiel pour améliorer les capacités de raisonnement des modèles de langage de grande envergure (Large Language Models, LLMs). Cependant, les défis liés à l'adaptation du RL aux données et formats multimodaux restent largement non résolus. Dans cet article, nous identifions deux problèmes dans les modèles de raisonnement multimodaux existants : une compréhension insuffisante du contexte global et des problèmes de raccourcis. Une compréhension insuffisante du contexte peut survenir lorsqu'un modèle interprète mal le contexte multimodal, entraînant des réponses incorrectes. Le problème de raccourci se produit lorsque le modèle néglige des indices cruciaux dans les entrées multimodales, répondant directement à la requête sans tenir compte des informations multimodales. Pour résoudre ces problèmes, nous soulignons la nécessité pour le modèle de raisonner avec une compréhension claire du contexte global dans les entrées multimodales. Cette compréhension du contexte global peut efficacement empêcher le modèle de négliger des indices multimodaux clés et assurer un processus de raisonnement approfondi. Pour garantir l'interprétation précise des informations contextuelles multimodales, nous mettons en œuvre une récompense contextuelle jugée par un modèle de langage de grande envergure, ainsi que des récompenses de format et de précision. De plus, pour améliorer la capacité de raisonnement complexe, nous utilisons le LLM pour évaluer la récompense logique, déterminant si le processus de raisonnement intègre avec succès les informations multimodales avec des méthodes logiques. Nous introduisons également un benchmark de raisonnement omni-modal, IntentBench, visant à évaluer les modèles dans la compréhension des intentions et émotions humaines complexes. Notre méthode proposée démontre des performances avancées sur plusieurs benchmarks omni-modaux par rapport à d'autres modèles omni-modaux open-source.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.