AVERE: Повышение качества аудиовизуального эмоционального анализа с помощью оптимизации предпочтений
AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
February 4, 2026
Авторы: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI
Аннотация
Понимание эмоций является ключевым для создания социально интеллектуальных агентов. Хотя современные мультимодальные большие языковые модели продемонстрировали высокую производительность в этой задаче, остаются две основные проблемы — ложные ассоциации между эмоциями и нерелевантными аудиовизуальными сигналами, а также галлюцинации аудиовизуальных сигналов, вызванные текстовыми априорными знаниями в языковой модели. Для количественной оценки и понимания этих проблем мы представляем EmoReAlM — бенчмарк, предназначенный для оценки MLLM по ассоциациям «сигнал-эмоция», галлюцинациям и межмодальному согласованию. Затем мы предлагаем AVEm-DPO, технику оптимизации предпочтений, которая согласует ответы модели как с аудиовизуальными входными данными, так и с эмоционально-ориентированными запросами. В частности, мы формируем предпочтения относительно ответов, демонстрирующих ложные ассоциации или галлюцинации, и пар аудиовизуальных входных данных на основе текстовых промптов. Мы также включаем регуляризационный член, который штрафует зависимость от текстовых априорных знаний, тем самым смягчая галлюцинации модально-специфичных сигналов. Экспериментальные результаты на DFEW, RAVDESS и EMER показывают, что наш метод значительно улучшает производительность эталонных моделей с относительным приростом производительности на 6–19% в условиях zero-shot обучения. Предлагая строгий бенчмарк и надежную framework оптимизации, данная работа позволяет проводить принципиальную оценку и улучшение MLLM для понимания эмоций и социального ИИ. Код, модели и бенчмарк будут доступны по адресу https://avere-iclr.github.io.
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.