ChatPaper.aiChatPaper

AVERE: Verbesserung des audiovisuellen Emotionsverständnisses durch Präferenzoptimierung

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

February 4, 2026
papers.authors: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI

papers.abstract

Das Verständnis von Emotionen ist entscheidend für die Entwicklung sozial intelligenter Agenten. Obwohl neuere multimodale Large Language Models bei dieser Aufgabe starke Leistungen gezeigt haben, bestehen weiterhin zwei zentrale Herausforderungen: trügerische Assoziationen zwischen Emotionen und irrelevanten audiovisuellen Hinweisen sowie Halluzinationen von audiovisuellen Hinweisen, die durch Text-Priors im Sprachmodell-Backbone angetrieben werden. Um diese Probleme zu quantifizieren und zu verstehen, führen wir EmoReAlM ein, einen Benchmark, der entwickelt wurde, um MLLMs hinsichtlich Hinweis-Emotions-Assoziationen, Halluzinationen und Modalitätsübereinstimmung zu bewerten. Anschließend schlagen wir AVEm-DPO vor, eine Präferenzoptimierungstechnik, die Modellantworten mit audiovisuellen Eingaben und emotionszentrierten Abfragen in Einklang bringt. Konkret konstruieren wir Präferenzen über Antworten, die trügerische Assoziationen oder Halluzinationen aufweisen, sowie über Paare audiovisueller Eingaben, die durch Textprompts gesteuert werden. Wir integrieren zudem einen Regularisierungsterm, der die Abhängigkeit von Text-Priors bestraft und dadurch modalspezifische Hinweishalluzinationen reduziert. Experimentelle Ergebnisse auf DFEW, RAVDESS und EMER zeigen, dass unsere Methode die Leistung der Referenz-Baselinemodelle signifikant verbessert, mit relativen Leistungssteigerungen von 6–19 % in Zero-Shot-Szenarien. Durch die Bereitstellung eines rigorosen Benchmarks und eines robusten Optimierungsrahmens ermöglicht diese Arbeit eine prinzipiengeleitete Bewertung und Verbesserung von MLLMs für Emotionsverständnis und soziale KI. Code, Modelle und der Benchmark werden unter https://avere-iclr.github.io veröffentlicht.
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.
PDF12February 11, 2026