ChatPaper.aiChatPaper

AVERE: 선호도 최적화를 통한 시청각 감정 추론 향상

AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

February 4, 2026
저자: Ashutosh Chaubey, Jiacheng Pang, Maksim Siniukov, Mohammad Soleymani
cs.AI

초록

감정 이해는 사회적으로 지능적인 에이전트 구축에 필수적입니다. 최근 멀티모달 대규모 언어 모델이 이 과제에서 강력한 성능을 보였지만, 두 가지 주요 과제가 남아 있습니다. 바로 감정과 무관한 시청각 단서 간의 허위 연관성과 언어 모델 백본의 텍스트 사전 지식에 의해 유발되는 시청각 단서의 환각 현상입니다. 이러한 문제를 정량화하고 이해하기 위해, 우리는 MLLM의 단서-감정 연관성, 환각 현상 및 모달리티 일치성을 평가하도록 설계된 벤치마크인 EmoReAlM을 소개합니다. 또한 AVEm-DPO라는 선호도 최적화 기법을 제안하며, 이는 모델 응답을 시청각 입력과 감정 중심 질의에 정렬합니다. 구체적으로는 허위 연관성이나 환각 현상을 보이는 응답과 텍스트 프롬프트에 기반한 시청각 입력 쌍에 대한 선호도를 구성합니다. 또한 텍스트 사전 지식 의존성을 억제하는 정규화 항을 포함하여 모달리티 특정 단서 환각 현상을 완화합니다. DFEW, RAVDESS 및 EMER에 대한 실험 결과는 우리 방법이 기준 베이스라인 모델의 성능을 제로샷 설정에서 6-19%의 상대적 성능 향상으로 유의미하게 개선함을 보여줍니다. 이 연구는 엄격한 벤치마크와 강력한 최적화 프레임워크를 함께 제공함으로써, 감정 이해 및 사회적 AI를 위한 MLLM의 원칙적인 평가와 개선을 가능하게 합니다. 코드, 모델 및 벤치마크는 https://avere-iclr.github.io에서 공개될 예정입니다.
English
Emotion understanding is essential for building socially intelligent agents. Although recent multimodal large language models have shown strong performance on this task, two key challenges remain - spurious associations between emotions and irrelevant audiovisual cues, and hallucinations of audiovisual cues driven by text priors in the language model backbone. To quantify and understand these issues, we introduce EmoReAlM, a benchmark designed to evaluate MLLMs for cue-emotion associations, hallucinations and modality agreement. We then propose AVEm-DPO, a preference optimization technique that aligns model responses with both audiovisual inputs and emotion-centric queries. Specifically, we construct preferences over responses exhibiting spurious associations or hallucinations, and audiovisual input pairs guided by textual prompts. We also include a regularization term that penalizes reliance on text priors, thereby mitigating modality-specific cue hallucinations. Experimental results on DFEW, RAVDESS and EMER demonstrate that our method significantly improves the performance of the reference baseline models with 6-19% of relative performance gains in zero-shot settings. By providing both a rigorous benchmark and a robust optimization framework, this work enables principled evaluation and improvement of MLLMs for emotion understanding and social AI. Code, models and benchmark will be released at https://avere-iclr.github.io.
PDF12February 11, 2026