ChatPaper.aiChatPaper

HumanOmniV2: От понимания к всеобъемлющему мультимодальному рассуждению с учетом контекста

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

June 26, 2025
Авторы: Qize Yang, Shimin Yao, Weixuan Chen, Shenghao Fu, Detao Bai, Jiaxing Zhao, Boyuan Sun, Bowen Yin, Xihan Wei, Jingren Zhou
cs.AI

Аннотация

С быстрым развитием мультимодальных больших языковых моделей способность глубоко понимать и интерпретировать человеческие намерения стала критически важной функцией, требующей детального и вдумчивого рассуждения. В последних исследованиях обучение с подкреплением (Reinforcement Learning, RL) продемонстрировало потенциал в улучшении способности к рассуждению у больших языковых моделей (Large Language Models, LLMs). Тем не менее, проблемы, связанные с адаптацией RL к мультимодальным данным и форматам, остаются в значительной степени нерешенными. В данной работе мы выделяем две проблемы в существующих моделях мультимодального рассуждения: недостаточное понимание глобального контекста и проблема "коротких путей". Недостаточное понимание контекста может возникать, когда модель неправильно интерпретирует мультимодальный контекст, что приводит к неверным ответам. Проблема "коротких путей" возникает, когда модель упускает ключевые подсказки в мультимодальных входных данных, напрямую отвечая на запрос без учета мультимодальной информации. Для решения этих проблем мы подчеркиваем необходимость того, чтобы модель рассуждала с четким пониманием глобального контекста в мультимодальных входных данных. Это понимание глобального контекста может эффективно предотвратить упущение ключевых мультимодальных подсказок и обеспечить тщательный процесс рассуждения. Для обеспечения точной интерпретации мультимодальной контекстной информации мы внедряем контекстное вознаграждение, оцениваемое большой языковой моделью, наряду с вознаграждениями за формат и точность. Кроме того, для улучшения способности к сложному рассуждению мы используем LLM для оценки логического вознаграждения, определяя, успешно ли процесс рассуждения интегрирует мультимодальную информацию с логическими методами. Мы также представляем эталонный набор данных для всестороннего рассуждения, IntentBench, предназначенный для оценки моделей в понимании сложных человеческих намерений и эмоций. Наш предложенный метод демонстрирует превосходную производительность на нескольких всесторонних эталонных наборах данных по сравнению с другими открытыми всесторонними моделями.
English
With the rapid evolution of multimodal large language models, the capacity to deeply understand and interpret human intentions has emerged as a critical capability, which demands detailed and thoughtful reasoning. In recent studies, Reinforcement Learning (RL) has demonstrated potential in enhancing the reasoning capabilities of Large Language Models (LLMs). Nonetheless, the challenges associated with adapting RL to multimodal data and formats remain largely unaddressed. In this paper, we identify two issues in existing multimodal reasoning models: insufficient global context understanding and shortcut problems. Insufficient context understanding can happen when a model misinterprets multimodal context, resulting in incorrect answers. The shortcut problem occurs when the model overlooks crucial clues in multimodal inputs, directly addressing the query without considering the multimodal information. To tackle these issues, we emphasize the necessity for the model to reason with a clear understanding of the global context within multimodal inputs. This global context understanding can effectively prevent the model from overlooking key multimodal cues and ensure a thorough reasoning process. To ensure the accurate interpretation of multimodal context information, we implement a context reward judged by a large language model, alongside format and accuracy rewards. Additionally, to improve complex reasoning capability, we employ the LLM to assess the logical reward, determining whether the reasoning process successfully integrates multimodal information with logical methods. We also introduce a reasoning omni-modal benchmark, IntentBench, aimed at evaluating models in understanding complex human intentions and emotions. Our proposed method demonstrates advanced performance across multiple omni-modal benchmarks compared to other open-source omni-modal models.
PDF101July 2, 2025