AVERE : Amélioration du raisonnement émotionnel audiovisuel par optimisation des préférences
AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
February 4, 2026
papers.authors: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI
papers.abstract
La compréhension des émotions est essentielle pour développer des agents socialement intelligents. Bien que les modèles de langage multimodaux récents aient démontré de fortes performances sur cette tâche, deux défis majeurs persistent : les associations fallacieuses entre émotions et indices audiovisuels non pertinents, et les hallucinations d’indices audiovisuels induites par les a priori textuels du modèle de langage sous-jacent. Pour quantifier et comprendre ces problèmes, nous présentons EmoReAlM, un benchmark conçu pour évaluer les associations indice-émotion, les hallucinations et l’accord intermodal des MLLMs. Nous proposons ensuite AVEm-DPO, une technique d’optimisation par préférence qui aligne les réponses du modèle à la fois sur les entrées audiovisuelles et les requêtes centrées sur l’émotion. Concrètement, nous construisons des préférences entre des réponses présentant des associations fallacieuses ou des hallucinations, et des paires d’entrées audiovisuelles guidées par des prompts textuels. Nous incluons également un terme de régularisation qui pénalise la dépendance aux a priori textuels, atténuant ainsi les hallucinations d’indices spécifiques à une modalité. Les résultats expérimentaux sur DFEW, RAVDESS et EMER montrent que notre méthode améliore significativement les performances des modèles de référence, avec des gains relatifs de 6 à 19 % en configuration zero-shot. En proposant à la fois un benchmark rigoureux et un cadre d’optimisation robuste, ce travail permet une évaluation et une amélioration méthodiques des MLLMs pour la compréhension des émotions et l’IA sociale. Le code, les modèles et le benchmark seront disponibles à l’adresse https://avere-iclr.github.io.
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.