HumanOmniV2: 컨텍스트를 통한 이해에서 오므니-모달 추론으로
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
저자: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
초록
다중모달 대형 언어 모델의 급속한 발전과 함께, 인간의 의도를 깊이 이해하고 해석하는 능력은 상세하고 신중한 추론을 요구하는 중요한 역량으로 부각되었습니다. 최근 연구에서 강화학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 잠재력을 보여주었습니다. 그러나 다중모달 데이터와 형식에 RL을 적용하는 데 따른 과제들은 여전히 대부분 해결되지 않은 상태입니다. 본 논문에서는 기존 다중모달 추론 모델의 두 가지 문제점을 지적합니다: 불충분한 전역 컨텍스트 이해와 단축 경로 문제입니다. 불충분한 컨텍스트 이해는 모델이 다중모달 컨텍스트를 잘못 해석하여 잘못된 답변을 내놓는 경우에 발생할 수 있습니다. 단축 경로 문제는 모델이 다중모달 입력에서 중요한 단서를 간과하고, 다중모달 정보를 고려하지 않고 질의에 직접 답변하는 경우에 발생합니다. 이러한 문제를 해결하기 위해, 우리는 모델이 다중모달 입력 내의 전역 컨텍스트를 명확히 이해하며 추론할 필요성을 강조합니다. 이러한 전역 컨텍스트 이해는 모델이 주요 다중모달 단서를 간과하는 것을 효과적으로 방지하고 철저한 추론 과정을 보장할 수 있습니다. 다중모달 컨텍스트 정보의 정확한 해석을 보장하기 위해, 우리는 대형 언어 모델에 의해 판단되는 컨텍스트 보상과 형식 및 정확도 보상을 구현합니다. 또한, 복잡한 추론 능력을 향상시키기 위해, 우리는 LLM을 활용하여 논리적 보상을 평가하고, 추론 과정이 다중모달 정보를 논리적 방법과 성공적으로 통합했는지 여부를 판단합니다. 우리는 또한 복잡한 인간의 의도와 감정을 이해하는 모델을 평가하기 위한 추론 전모달 벤치마크인 IntentBench를 소개합니다. 우리가 제안한 방법은 다른 오픈소스 전모달 모델들과 비교하여 여러 전모달 벤치마크에서 우수한 성능을 보여줍니다.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.