HumanOmniV2: Vom Verständnis zum omni-modalen Denken mit Kontext
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Autoren: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Zusammenfassung
Mit der rasanten Entwicklung multimodaler großer Sprachmodelle hat sich die Fähigkeit, menschliche Absichten tiefgreifend zu verstehen und zu interpretieren, als eine entscheidende Kompetenz herausgestellt, die detailliertes und durchdachtes Denken erfordert. In jüngsten Studien hat Reinforcement Learning (RL) das Potenzial gezeigt, die Denkfähigkeiten von Large Language Models (LLMs) zu verbessern. Dennoch bleiben die Herausforderungen, die mit der Anpassung von RL an multimodale Daten und Formate verbunden sind, weitgehend ungelöst. In diesem Papier identifizieren wir zwei Probleme in bestehenden multimodalen Denkmodellen: unzureichendes Verständnis des globalen Kontexts und Shortcut-Probleme. Ein unzureichendes Kontextverständnis kann auftreten, wenn ein Modell den multimodalen Kontext falsch interpretiert, was zu falschen Antworten führt. Das Shortcut-Problem tritt auf, wenn das Modell entscheidende Hinweise in multimodalen Eingaben übersieht und die Anfrage direkt beantwortet, ohne die multimodalen Informationen zu berücksichtigen. Um diese Probleme zu lösen, betonen wir die Notwendigkeit, dass das Modell mit einem klaren Verständnis des globalen Kontexts innerhalb multimodaler Eingaben denkt. Dieses Verständnis des globalen Kontexts kann effektiv verhindern, dass das Modell wichtige multimodale Hinweise übersieht und einen gründlichen Denkprozess sicherstellt. Um die genaue Interpretation multimodaler Kontextinformationen zu gewährleisten, implementieren wir eine Kontextbelohnung, die von einem großen Sprachmodell beurteilt wird, sowie Format- und Genauigkeitsbelohnungen. Darüber hinaus setzen wir das LLM ein, um die logische Belohnung zu bewerten und festzustellen, ob der Denkprozess multimodale Informationen erfolgreich mit logischen Methoden integriert. Wir führen außerdem einen Benchmark für allmodales Denken, IntentBench, ein, der darauf abzielt, Modelle beim Verständnis komplexer menschlicher Absichten und Emotionen zu bewerten. Unsere vorgeschlagene Methode zeigt eine überlegene Leistung über mehrere allmodale Benchmarks im Vergleich zu anderen Open-Source-allmodalen Modellen.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.