ChatPaper.aiChatPaper

VidEmo: Affectieve-Boomredenering voor Emotiegerichte Videofundamentmodellen

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
Auteurs: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

Samenvatting

Het begrijpen en voorspellen van emoties uit video's heeft de afgelopen jaren aanzienlijke aandacht gekregen in wetenschappelijke studies, aangewakkerd door vooruitgang in video large language models (VideoLLM's). Hoewel geavanceerde methoden vooruitgang hebben geboekt in video-emotieanalyse, vormt de intrinsieke aard van emoties aanzienlijke uitdagingen. Emoties worden gekenmerkt door dynamische en cue-afhankelijke eigenschappen, waardoor het moeilijk is complexe en evoluerende emotionele toestanden met een redelijke onderbouwing te begrijpen. Om deze uitdagingen aan te pakken, stellen we een nieuw raamwerk voor voor affectieve cue-gestuurd redeneren dat fundamentele attribuutperceptie, expressieanalyse en hoogwaardig emotiebegrip op een gefaseerde manier verenigt. De kern van onze aanpak bestaat uit een familie van video-emotiefoundationmodellen (VidEmo), specifiek ontworpen voor emotieredenering en instructievolging. Deze modellen ondergaan een tweefasen afstemmingsproces: eerst curriculumemotieleren om emotiekennis in te brengen, gevolgd door reinforcement learning met een affectieve boomstructuur voor emotieredenering. Bovendien hebben we een foundationele datainfrastructuur opgezet en introduceren we een emotiegerichte fijnmazige dataset (Emo-CFG) bestaande uit 2,1 miljoen diverse op instructies gebaseerde samples. Emo-CFG omvat verklaarbare emotionele vraag-antwoordparen, fijnmazige bijschriften en bijbehorende onderbouwingen, en biedt essentiële bronnen voor het bevorderen van emotiebegriptaken. Experimentele resultaten tonen aan dat onze aanpak competitieve prestaties bereikt en een nieuwe mijlpaal vestigt across 15 gezichtsperceptietaken.
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025