AVERE:選好最適化による視聴覚感情推論の改善
AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
February 4, 2026
著者: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI
要旨
感情理解は、社会的に知的なエージェントを構築する上で不可欠である。近年のマルチモーダル大規模言語モデルはこのタスクで高い性能を示しているが、2つの重要な課題が残っている。すなわち、感情と無関係な視聴覚的手がかりとの間の擬似相関、および言語モデル基盤におけるテキスト事前分布によって駆動される視聴覚的手がかりの幻覚である。これらの問題を定量化し理解するため、我々はEmoReAlMを導入する。これは、手がかりと感情の関連性、幻覚、およびモダリティ間の一致を評価するために設計されたベンチマークである。次に、モデルの応答を視聴覚入力と感情中心のクエリの両方に整合させる選好最適化手法であるAVEm-DPOを提案する。具体的には、擬似相関や幻覚を示す応答と、テキストプロンプトによって導かれる視聴覚入力ペアに対する選好を構築する。さらに、テキスト事前分布への依存にペナルティを課す正則化項を含めることで、モダリティ固有の手がかり幻覚を軽減する。DFEW、RAVDESS、EMERにおける実験結果は、本手法が参照ベースラインモデルの性能をゼロショット設定において6~19%の相対的性能向上で有意に改善することを示している。厳密なベンチマークと堅牢な最適化フレームワークの両方を提供することにより、本研究は感情理解と社会的人工知能のためのMLLMの原理的な評価と改善を可能にする。コード、モデル、ベンチマークはhttps://avere-iclr.github.ioで公開予定である。
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.