AVERE: Aprimorando o Raciocínio Emocional Audiovisual com Otimização de Preferências

Resumo

A compreensão emocional é essencial para a construção de agentes socialmente inteligentes. Embora os modelos de linguagem grandes multimodais recentes tenham demonstrado forte desempenho nesta tarefa, dois desafios principais persistem: associações espúrias entre emoções e pistas audiovisuais irrelevantes, e alucinações de pistas audiovisuais impulsionadas por *priors* textuais no *backbone* do modelo de linguagem. Para quantificar e compreender estas questões, introduzimos o EmoReAlM, um *benchmark* concebido para avaliar MLLMs quanto a associações pista-emoção, alucinações e concordância de modalidade. Propomos então o AVEm-DPO, uma técnica de otimização de preferências que alinha as respostas do modelo com os *inputs* audiovisuais e consultas centradas na emoção. Especificamente, construímos preferências sobre respostas que exibem associações espúrias ou alucinações, e pares de *input* audiovisual guiados por *prompts* textuais. Incluímos também um termo de regularização que penaliza a dependência de *priors* textuais, mitigando assim as alucinações de pistas específicas da modalidade. Resultados experimentais no DFEW, RAVDESS e EMER demonstram que o nosso método melhora significativamente o desempenho dos modelos de referência *baseline*, com ganhos de desempenho relativo de 6 a 19% em configurações *zero-shot*. Ao fornecer tanto um *benchmark* rigoroso como um quadro de otimização robusto, este trabalho permite uma avaliação e melhoria fundamentadas dos MLLMs para a compreensão emocional e a IA social. O código, modelos e *benchmark* serão disponibilizados em https://avere-iclr.github.io.

English

Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.

AVERE: Aprimorando o Raciocínio Emocional Audiovisual com Otimização de Preferências

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

Resumo

Support