ChatPaper.aiChatPaper

HumanOmniV2 : De la compréhension au raisonnement omni-modal en contexte

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

June 26, 2025
Auteurs: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI

Résumé

Avec l'évolution rapide des modèles de langage multimodaux de grande envergure, la capacité à comprendre et interpréter profondément les intentions humaines est devenue une compétence critique, nécessitant un raisonnement détaillé et réfléchi. Dans les études récentes, l'apprentissage par renforcement (Reinforcement Learning, RL) a démontré un potentiel pour améliorer les capacités de raisonnement des modèles de langage de grande envergure (Large Language Models, LLMs). Cependant, les défis liés à l'adaptation du RL aux données et formats multimodaux restent largement non résolus. Dans cet article, nous identifions deux problèmes dans les modèles de raisonnement multimodaux existants : une compréhension insuffisante du contexte global et des problèmes de raccourcis. Une compréhension insuffisante du contexte peut survenir lorsqu'un modèle interprète mal le contexte multimodal, entraînant des réponses incorrectes. Le problème de raccourci se produit lorsque le modèle néglige des indices cruciaux dans les entrées multimodales, répondant directement à la requête sans tenir compte des informations multimodales. Pour résoudre ces problèmes, nous soulignons la nécessité pour le modèle de raisonner avec une compréhension claire du contexte global dans les entrées multimodales. Cette compréhension du contexte global peut efficacement empêcher le modèle de négliger des indices multimodaux clés et assurer un processus de raisonnement approfondi. Pour garantir l'interprétation précise des informations contextuelles multimodales, nous mettons en œuvre une récompense contextuelle jugée par un modèle de langage de grande envergure, ainsi que des récompenses de format et de précision. De plus, pour améliorer la capacité de raisonnement complexe, nous utilisons le LLM pour évaluer la récompense logique, déterminant si le processus de raisonnement intègre avec succès les informations multimodales avec des méthodes logiques. Nous introduisons également un benchmark de raisonnement omni-modal, IntentBench, visant à évaluer les modèles dans la compréhension des intentions et émotions humaines complexes. Notre méthode proposée démontre des performances avancées sur plusieurs benchmarks omni-modaux par rapport à d'autres modèles omni-modaux open-source.
English
With the rapid evolution of multimodal large language models, the capacity to deeply understand and interpret human intentions has emerged as a critical capability, which demands detailed and thoughtful reasoning. In recent studies, Reinforcement Learning (RL) has demonstrated potential in enhancing the reasoning capabilities of Large Language Models (LLMs). Nonetheless, the challenges associated with adapting RL to multimodal data and formats remain largely unaddressed. In this paper, we identify two issues in existing multimodal reasoning models: insufficient global context understanding and shortcut problems. Insufficient context understanding can happen when a model misinterprets multimodal context, resulting in incorrect answers. The shortcut problem occurs when the model overlooks crucial clues in multimodal inputs, directly addressing the query without considering the multimodal information. To tackle these issues, we emphasize the necessity for the model to reason with a clear understanding of the global context within multimodal inputs. This global context understanding can effectively prevent the model from overlooking key multimodal cues and ensure a thorough reasoning process. To ensure the accurate interpretation of multimodal context information, we implement a context reward judged by a large language model, alongside format and accuracy rewards. Additionally, to improve complex reasoning capability, we employ the LLM to assess the logical reward, determining whether the reasoning process successfully integrates multimodal information with logical methods. We also introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating models in understanding complex human intentions and emotions. Our proposed method demonstrates advanced performance across multiple omni-modal benchmarks compared to other open-source omni-modal models.
PDF101July 2, 2025