HumanSense : De la perception multimodale aux réponses empathiques et contextuelles grâce au raisonnement des MLLM
HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs
August 14, 2025
papers.authors: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang
cs.AI
papers.abstract
Bien que les modèles de langage multimodaux de grande envergure (MLLMs) montrent un immense potentiel pour atteindre des interactions véritablement humaines, les progrès sont entravés par le manque de cadres d'évaluation granulaires pour les scénarios centrés sur l'humain, englobant à la fois la compréhension des intentions humaines complexes et la fourniture de réponses empathiques et contextuellement adaptées. Nous présentons ici HumanSense, un benchmark complet conçu pour évaluer les capacités de perception et d'interaction centrées sur l'humain des MLLMs, en mettant particulièrement l'accent sur la compréhension approfondie des contextes multimodaux étendus et la formulation de retours rationnels. Notre évaluation révèle que les MLLMs leaders ont encore une marge d'amélioration considérable, en particulier pour les tâches d'interaction avancées. L'ajout d'informations audio et textuelles aux entrées visuelles apporte des améliorations substantielles, et les modèles omni-modaux montrent des avantages sur ces tâches. De plus, nous soutenons qu'un retour approprié découle d'une analyse contextuelle des besoins et des émotions de l'interlocuteur, avec la capacité de raisonnement comme clé pour le débloquer. En conséquence, nous utilisons un apprentissage par renforcement progressif et multi-étapes pour améliorer les capacités de raisonnement d'un modèle omni, obtenant des gains substantiels sur les résultats d'évaluation. Par ailleurs, nous observons que les processus de raisonnement réussis présentent des schémas de pensée hautement cohérents. En concevant des invites correspondantes, nous améliorons également les performances des modèles non raisonnants de manière sans entraînement. Page du projet : brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
English
While Multimodal Large Language Models (MLLMs) show immense promise for
achieving truly human-like interactions, progress is hindered by the lack of
fine-grained evaluation frameworks for human-centered scenarios, encompassing
both the understanding of complex human intentions and the provision of
empathetic, context-aware responses. Here we introduce HumanSense, a
comprehensive benchmark designed to evaluate the human-centered perception and
interaction capabilities of MLLMs, with a particular focus on deep
understanding of extended multimodal contexts and the formulation of rational
feedback. Our evaluation reveals that leading MLLMs still have considerable
room for improvement, particularly for advanced interaction-oriented tasks.
Supplementing visual input with audio and text information yields substantial
improvements, and Omni-modal models show advantages on these tasks.
Furthermore, we argue that appropriate feedback stems from a contextual
analysis of the interlocutor's needs and emotions, with reasoning ability
serving as the key to unlocking it. Accordingly, we employ a multi-stage,
modality-progressive reinforcement learning to enhance the reasoning abilities
of an Omni model, achieving substantial gains on evaluation results.
Additionally, we observe that successful reasoning processes exhibit highly
consistent thought patterns. By designing corresponding prompts, we also
enhance the performance of non-reasoning models in a training-free manner.
Project page:
brightpinkhttps://digital-avatar.github.io/ai/HumanSense/