VidEmo: Ragionamento ad Albero Affettivo per Modelli di Base Video Centrati sulle Emozioni
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
November 4, 2025
Autori: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI
Abstract
La comprensione e la previsione delle emozioni dai video ha ricevuto significativa attenzione negli studi recenti, guidata dai progressi nei modelli linguistici di grandi dimensioni per video (VideoLLM). Sebbene i metodi avanzati abbiano compiuto progressi nell'analisi delle emozioni video, la natura intrinseca delle emozioni pone sfide significative. Le emozioni sono caratterizzate da proprietà dinamiche e dipendenti da indizi, rendendo difficile comprendere stati emotivi complessi ed evolutivi con ragionamenti appropriati. Per affrontare queste sfide, proponiamo una nuova struttura di ragionamento guidata da indizi affettivi che unifica la percezione degli attributi fondamentali, l'analisi delle espressioni e la comprensione emotiva di alto livello in modo graduale. Al centro del nostro approccio c'è una famiglia di modelli fondazionali per le emozioni video (VidEmo), specificamente progettati per il ragionamento emotivo e il follow-up di istruzioni. Questi modelli subiscono un processo di ottimizzazione in due fasi: prima, un apprendimento emotivo curriculare per l'iniezione di conoscenze emotive, seguito da un apprendimento per rinforzo ad albero affettivo per il ragionamento emotivo. Inoltre, stabiliamo un'infrastruttura dati fondazionale e introduciamo un dataset granulare centrato sulle emozioni (Emo-CFG) composto da 2,1 milioni di campioni diversificati basati su istruzioni. Emo-CFG include domande-risposte emotive spiegabili, descrizioni granulari e ragionamenti associati, fornendo risorse essenziali per far avanzare i compiti di comprensione emotiva. I risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni competitive, stabilendo una nuova pietra miliare attraverso 15 compiti di percezione facciale.
English
Understanding and predicting emotion from videos has gathered significant
attention in recent studies, driven by advancements in video large language
models (VideoLLMs). While advanced methods have made progress in video emotion
analysis, the intrinsic nature of emotions poses significant challenges.
Emotions are characterized by dynamic and cues-dependent properties, making it
difficult to understand complex and evolving emotional states with reasonable
rationale. To tackle these challenges, we propose a novel affective cues-guided
reasoning framework that unifies fundamental attribute perception, expression
analysis, and high-level emotional understanding in a stage-wise manner. At the
core of our approach is a family of video emotion foundation models (VidEmo),
specifically designed for emotion reasoning and instruction-following. These
models undergo a two-stage tuning process: first, curriculum emotion learning
for injecting emotion knowledge, followed by affective-tree reinforcement
learning for emotion reasoning. Moreover, we establish a foundational data
infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG)
consisting of 2.1M diverse instruction-based samples. Emo-CFG includes
explainable emotional question-answering, fine-grained captions, and associated
rationales, providing essential resources for advancing emotion understanding
tasks. Experimental results demonstrate that our approach achieves competitive
performance, setting a new milestone across 15 face perception tasks.