ChatPaper.aiChatPaper

VidEmo: Ragionamento ad Albero Affettivo per Modelli di Base Video Centrati sulle Emozioni

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
Autori: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

Abstract

La comprensione e la previsione delle emozioni dai video ha ricevuto significativa attenzione negli studi recenti, guidata dai progressi nei modelli linguistici di grandi dimensioni per video (VideoLLM). Sebbene i metodi avanzati abbiano compiuto progressi nell'analisi delle emozioni video, la natura intrinseca delle emozioni pone sfide significative. Le emozioni sono caratterizzate da proprietà dinamiche e dipendenti da indizi, rendendo difficile comprendere stati emotivi complessi ed evolutivi con ragionamenti appropriati. Per affrontare queste sfide, proponiamo una nuova struttura di ragionamento guidata da indizi affettivi che unifica la percezione degli attributi fondamentali, l'analisi delle espressioni e la comprensione emotiva di alto livello in modo graduale. Al centro del nostro approccio c'è una famiglia di modelli fondazionali per le emozioni video (VidEmo), specificamente progettati per il ragionamento emotivo e il follow-up di istruzioni. Questi modelli subiscono un processo di ottimizzazione in due fasi: prima, un apprendimento emotivo curriculare per l'iniezione di conoscenze emotive, seguito da un apprendimento per rinforzo ad albero affettivo per il ragionamento emotivo. Inoltre, stabiliamo un'infrastruttura dati fondazionale e introduciamo un dataset granulare centrato sulle emozioni (Emo-CFG) composto da 2,1 milioni di campioni diversificati basati su istruzioni. Emo-CFG include domande-risposte emotive spiegabili, descrizioni granulari e ragionamenti associati, fornendo risorse essenziali per far avanzare i compiti di comprensione emotiva. I risultati sperimentali dimostrano che il nostro approccio raggiunge prestazioni competitive, stabilendo una nuova pietra miliare attraverso 15 compiti di percezione facciale.
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025