HumanOmniV2: Da Compreensão ao Raciocínio Omni-Modal com Contexto
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Autores: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Resumo
Com a rápida evolução dos modelos de linguagem multimodal de grande escala, a capacidade de compreender e interpretar profundamente as intenções humanas emergiu como uma habilidade crítica, exigindo raciocínio detalhado e ponderado. Em estudos recentes, o Aprendizado por Reforço (RL) demonstrou potencial para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, os desafios associados à adaptação do RL a dados e formatos multimodais permanecem em grande parte não resolvidos. Neste artigo, identificamos dois problemas nos modelos de raciocínio multimodal existentes: compreensão insuficiente do contexto global e problemas de atalho. A compreensão insuficiente do contexto pode ocorrer quando um modelo interpreta mal o contexto multimodal, resultando em respostas incorretas. O problema de atalho ocorre quando o modelo ignora pistas cruciais nas entradas multimodais, abordando diretamente a consulta sem considerar as informações multimodais. Para enfrentar esses problemas, enfatizamos a necessidade de o modelo raciocinar com uma compreensão clara do contexto global dentro das entradas multimodais. Essa compreensão do contexto global pode efetivamente impedir que o modelo ignore pistas multimodais importantes e garantir um processo de raciocínio completo. Para garantir a interpretação precisa das informações de contexto multimodal, implementamos uma recompensa de contexto julgada por um modelo de linguagem de grande escala, juntamente com recompensas de formato e precisão. Além disso, para melhorar a capacidade de raciocínio complexo, utilizamos o LLM para avaliar a recompensa lógica, determinando se o processo de raciocínio integra com sucesso as informações multimodais com métodos lógicos. Também introduzimos um benchmark omni-modal de raciocínio, o IntentBench, destinado a avaliar modelos na compreensão de intenções e emoções humanas complexas. Nosso método proposto demonstra desempenho avançado em vários benchmarks omni-modais em comparação com outros modelos omni-modais de código aberto.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.