HumanOmniV2: Van Begrip naar Omni-Modale Redenering met Context
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Auteurs: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Samenvatting
Met de snelle evolutie van multimodale grote taalmodellen is het vermogen om menselijke intenties diepgaand te begrijpen en te interpreteren naar voren gekomen als een cruciale vaardigheid, die gedetailleerd en weloverwogen redeneren vereist. In recente studies heeft Reinforcement Learning (RL) potentieel getoond in het verbeteren van de redeneervaardigheden van Grote Taalmodellen (LLMs). Desalniettemin blijven de uitdagingen die gepaard gaan met het aanpassen van RL aan multimodale data en formaten grotendeels onopgelost. In dit artikel identificeren we twee problemen in bestaande multimodale redeneermodellen: onvoldoende begrip van de globale context en shortcut-problemen. Onvoldoende contextbegrip kan optreden wanneer een model de multimodale context verkeerd interpreteert, wat resulteert in incorrecte antwoorden. Het shortcut-probleem doet zich voor wanneer het model cruciale aanwijzingen in multimodale inputs over het hoofd ziet en de vraag direct beantwoordt zonder rekening te houden met de multimodale informatie. Om deze problemen aan te pakken, benadrukken we de noodzaak voor het model om te redeneren met een duidelijk begrip van de globale context binnen multimodale inputs. Dit begrip van de globale context kan effectief voorkomen dat het model belangrijke multimodale aanwijzingen over het hoofd ziet en zorgt voor een grondig redeneerproces. Om de accurate interpretatie van multimodale contextinformatie te waarborgen, implementeren we een contextbeloning beoordeeld door een groot taalmodel, naast format- en nauwkeurigheidsbeloningen. Daarnaast gebruiken we het LLM om de logische beloning te beoordelen, om te bepalen of het redeneerproces succesvol multimodale informatie integreert met logische methoden, om zo de complexe redeneervaardigheid te verbeteren. We introduceren ook een redeneer-omnimodale benchmark, IntentBench, gericht op het evalueren van modellen in het begrijpen van complexe menselijke intenties en emoties. Onze voorgestelde methode toont geavanceerde prestaties op meerdere omnimodale benchmarks in vergelijking met andere open-source omnimodale modellen.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.