HumanOmniV2: Del entendimiento al razonamiento omni-modal con contexto
HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context
June 26, 2025
Autores: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI
Resumen
Con el rápido avance de los modelos de lenguaje multimodal de gran escala, la capacidad para comprender e interpretar profundamente las intenciones humanas ha surgido como una habilidad crítica, que requiere un razonamiento detallado y reflexivo. En estudios recientes, el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado potencial para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). Sin embargo, los desafíos asociados con la adaptación del RL a datos y formatos multimodales siguen siendo en gran medida no abordados. En este artículo, identificamos dos problemas en los modelos de razonamiento multimodal existentes: la comprensión insuficiente del contexto global y los problemas de atajos. La comprensión insuficiente del contexto puede ocurrir cuando un modelo malinterpreta el contexto multimodal, lo que resulta en respuestas incorrectas. El problema de los atajos ocurre cuando el modelo pasa por alto pistas cruciales en las entradas multimodales, abordando directamente la consulta sin considerar la información multimodal. Para abordar estos problemas, enfatizamos la necesidad de que el modelo razone con una comprensión clara del contexto global dentro de las entradas multimodales. Esta comprensión del contexto global puede prevenir efectivamente que el modelo pase por alto señales clave multimodales y asegurar un proceso de razonamiento exhaustivo. Para garantizar la interpretación precisa de la información de contexto multimodal, implementamos una recompensa de contexto juzgada por un modelo de lenguaje de gran escala, junto con recompensas de formato y precisión. Además, para mejorar la capacidad de razonamiento complejo, empleamos el LLM para evaluar la recompensa lógica, determinando si el proceso de razonamiento integra exitosamente la información multimodal con métodos lógicos. También presentamos un punto de referencia omni-modal de razonamiento, IntentBench, destinado a evaluar modelos en la comprensión de intenciones y emociones humanas complejas. Nuestro método propuesto demuestra un rendimiento avanzado en múltiples puntos de referencia omni-modales en comparación con otros modelos omni-modales de código abierto.
English
With the rapid evolution of multimodal large language models, the capacity to
deeply understand and interpret human intentions has emerged as a critical
capability, which demands detailed and thoughtful reasoning. In recent studies,
Reinforcement Learning (RL) has demonstrated potential in enhancing the
reasoning capabilities of Large Language Models (LLMs). Nonetheless, the
challenges associated with adapting RL to multimodal data and formats remain
largely unaddressed. In this paper, we identify two issues in existing
multimodal reasoning models: insufficient global context understanding and
shortcut problems. Insufficient context understanding can happen when a model
misinterprets multimodal context, resulting in incorrect answers. The shortcut
problem occurs when the model overlooks crucial clues in multimodal inputs,
directly addressing the query without considering the multimodal information.
To tackle these issues, we emphasize the necessity for the model to reason with
a clear understanding of the global context within multimodal inputs. This
global context understanding can effectively prevent the model from overlooking
key multimodal cues and ensure a thorough reasoning process. To ensure the
accurate interpretation of multimodal context information, we implement a
context reward judged by a large language model, alongside format and accuracy
rewards. Additionally, to improve complex reasoning capability, we employ the
LLM to assess the logical reward, determining whether the reasoning process
successfully integrates multimodal information with logical methods. We also
introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating
models in understanding complex human intentions and emotions. Our proposed
method demonstrates advanced performance across multiple omni-modal benchmarks
compared to other open-source omni-modal models.