HumanSense: Von multimodaler Wahrnehmung zu empathischen kontextbewussten Antworten durch schlussfolgernde MLLMs
HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs
August 14, 2025
papers.authors: Zheng Qin, Ruobing Zheng, Yabing Wang, Tianqi Li, Yi Yuan, Jingdong Chen, Le Wang
cs.AI
papers.abstract
Während Multimodale Große Sprachmodelle (MLLMs) ein enormes Potenzial für die Erreichung wirklich menschenähnlicher Interaktionen zeigen, wird der Fortschritt durch das Fehlen fein abgestimmter Evaluierungsrahmen für menschenzentrierte Szenarien behindert, die sowohl das Verständnis komplexer menschlicher Absichten als auch die Bereitstellung empathischer, kontextbewusster Antworten umfassen. Hier stellen wir HumanSense vor, einen umfassenden Benchmark, der darauf abzielt, die menschenzentrierten Wahrnehmungs- und Interaktionsfähigkeiten von MLLMs zu bewerten, mit einem besonderen Fokus auf das tiefe Verständnis erweiterter multimodaler Kontexte und die Formulierung rationaler Rückmeldungen. Unsere Evaluation zeigt, dass führende MLLMs noch erheblichen Verbesserungsbedarf haben, insbesondere bei fortgeschrittenen interaktionsorientierten Aufgaben. Die Ergänzung visueller Eingaben durch Audio- und Textinformationen führt zu erheblichen Verbesserungen, und Omni-modale Modelle zeigen Vorteile bei diesen Aufgaben. Darüber hinaus argumentieren wir, dass angemessene Rückmeldungen aus einer kontextuellen Analyse der Bedürfnisse und Emotionen des Gesprächspartners resultieren, wobei die Fähigkeit zum logischen Denken der Schlüssel zur Entfaltung dieser Fähigkeit ist. Dementsprechend setzen wir ein mehrstufiges, modalitätsprogressives Reinforcement Learning ein, um die Denkfähigkeiten eines Omni-Modells zu verbessern, was zu erheblichen Gewinnen bei den Evaluierungsergebnissen führt. Zusätzlich beobachten wir, dass erfolgreiche Denkprozesse hochgradig konsistente Denkmuster aufweisen. Durch die Gestaltung entsprechender Prompts verbessern wir auch die Leistung von Nicht-Denkmodellen auf trainingsfreie Weise. Projektseite: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
English
While Multimodal Large Language Models (MLLMs) show immense promise for
achieving truly human-like interactions, progress is hindered by the lack of
fine-grained evaluation frameworks for human-centered scenarios, encompassing
both the understanding of complex human intentions and the provision of
empathetic, context-aware responses. Here we introduce HumanSense, a
comprehensive benchmark designed to evaluate the human-centered perception and
interaction capabilities of MLLMs, with a particular focus on deep
understanding of extended multimodal contexts and the formulation of rational
feedback. Our evaluation reveals that leading MLLMs still have considerable
room for improvement, particularly for advanced interaction-oriented tasks.
Supplementing visual input with audio and text information yields substantial
improvements, and Omni-modal models show advantages on these tasks.
Furthermore, we argue that appropriate feedback stems from a contextual
analysis of the interlocutor's needs and emotions, with reasoning ability
serving as the key to unlocking it. Accordingly, we employ a multi-stage,
modality-progressive reinforcement learning to enhance the reasoning abilities
of an Omni model, achieving substantial gains on evaluation results.
Additionally, we observe that successful reasoning processes exhibit highly
consistent thought patterns. By designing corresponding prompts, we also
enhance the performance of non-reasoning models in a training-free manner.
Project page:
brightpinkhttps://digital-avatar.github.io/ai/HumanSense/