ChatPaper.aiChatPaper

AVERE: Mejora del Razonamiento Emocional Audiovisual mediante Optimización por Preferencias

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

February 4, 2026
Autores: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI

Resumen

La comprensión emocional es esencial para construir agentes socialmente inteligentes. Aunque los modelos lingüísticos grandes multimodales recientes han mostrado un rendimiento sólido en esta tarea, persisten dos desafíos clave: las asociaciones espurias entre emociones y claves audiovisuales irrelevantes, y las alucinaciones de claves audiovisuales impulsadas por los sesgos textuales en el núcleo del modelo lingüístico. Para cuantificar y comprender estos problemas, presentamos EmoReAlM, un punto de referencia diseñado para evaluar MLLMs en asociaciones claves-emociones, alucinaciones y concordancia multimodal. Posteriormente proponemos AVEm-DPO, una técnica de optimización de preferencias que alinea las respuestas del modelo con las entradas audiovisuales y consultas centradas en emociones. Específicamente, construimos preferencias sobre respuestas que exhiben asociaciones espurias o alucinaciones, y pares de entrada audiovisual guiados por indicaciones textuales. También incluimos un término de regularización que penaliza la dependencia de sesgos textuales, mitigando así las alucinaciones de claves específicas por modalidad. Los resultados experimentales en DFEW, RAVDESS y EMER demuestran que nuestro método mejora significativamente el rendimiento de los modelos de referencia base con ganancias de rendimiento relativo del 6-19% en entornos de cero disparos. Al proporcionar tanto un punto de referencia riguroso como un marco de optimización robusto, este trabajo permite la evaluación e mejora fundamentadas de MLLMs para la comprensión emocional y la IA social. El código, modelos y punto de referencia se publicarán en https://avere-iclr.github.io.
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.
PDF12February 11, 2026