HumanOmniV2: Dalla comprensione al ragionamento omni-modale contestualizzato
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Autori: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Abstract
Con la rapida evoluzione dei modelli linguistici multimodali di grandi dimensioni, la capacità di comprendere e interpretare profondamente le intenzioni umane è emersa come una competenza critica, che richiede un ragionamento dettagliato e ponderato. Negli studi recenti, il Reinforcement Learning (RL) ha dimostrato potenziale nel migliorare le capacità di ragionamento dei Large Language Models (LLMs). Tuttavia, le sfide associate all'adattamento del RL ai dati e ai formati multimodali rimangono in gran parte irrisolte. In questo articolo, identifichiamo due problemi nei modelli esistenti di ragionamento multimodale: una comprensione insufficiente del contesto globale e i problemi di scorciatoia. La comprensione insufficiente del contesto può verificarsi quando un modello interpreta erroneamente il contesto multimodale, portando a risposte errate. Il problema della scorciatoia si verifica quando il modello trascura indizi cruciali negli input multimodali, affrontando direttamente la query senza considerare le informazioni multimodali. Per affrontare questi problemi, sottolineiamo la necessità che il modello ragioni con una chiara comprensione del contesto globale all'interno degli input multimodali. Questa comprensione del contesto globale può prevenire efficacemente che il modello trascuri indizi multimodali chiave e garantire un processo di ragionamento approfondito. Per assicurare l'interpretazione accurata delle informazioni contestuali multimodali, implementiamo una ricompensa contestuale giudicata da un large language model, insieme a ricompense di formato e accuratezza. Inoltre, per migliorare la capacità di ragionamento complesso, utilizziamo l'LLM per valutare la ricompensa logica, determinando se il processo di ragionamento integra con successo le informazioni multimodali con metodi logici. Introduciamo anche un benchmark omni-modale di ragionamento, IntentBench, mirato a valutare i modelli nella comprensione delle intenzioni e delle emozioni umane complesse. Il nostro metodo proposto dimostra prestazioni avanzate su più benchmark omni-modali rispetto ad altri modelli omni-modali open-source.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.