VidEmo: Affective-Tree Reasoning für emotionszentrierte Video-Foundation-Modelle
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
November 4, 2025
papers.authors: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI
papers.abstract
Das Verständnis und die Vorhersage von Emotionen in Videos hat in jüngsten Studien, bedingt durch Fortschritte bei Video-Large-Language-Models (VideoLLMs), erheblich an Bedeutung gewonnen. Obwohl fortschrittliche Methoden Fortschritte in der Video-Emotionsanalyse erzielt haben, stellt die intrinsische Natur von Emotionen erhebliche Herausforderungen dar. Emotionen sind durch dynamische und kontextabhängige Eigenschaften gekennzeichnet, was es schwierig macht, komplexe und sich entwickelnde emotionale Zustände mit nachvollziehbaren Begründungen zu verstehen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges, affektiv geleitetes Reasoning-Framework vor, das grundlegende Attributwahrnehmung, Ausdrucksanalyse und hochrangiges Emotionsverständnis stufenweise vereint. Kern unseres Ansatzes ist eine Familie von Video-Emotions-Foundation-Models (VidEmo), die speziell für Emotionsreasoning und Befolgung von Instruktionen entwickelt wurden. Diese Modelle durchlaufen einen zweistufigen Abstimmungsprozess: erstens curriculum-basiertes Emotionslernen zur Vermittlung von Emotionswissen, gefolgt von affektiv-baumbasiertem bestärkendem Lernen für das Emotionsreasoning. Darüber hinaus schaffen wir eine grundlegende Dateninfrastruktur und führen einen emotionszentrierten, feinkörnigen Datensatz (Emo-CFG) ein, der 2,1 Millionen verschiedene instruktionsbasierte Beispiele umfasst. Emo-CFG enthält erklärbare emotionale Frage-Antwort-Paare, feinkörnige Beschreibungen und zugehörige Begründungen, die wesentliche Ressourcen für die Weiterentwicklung von Emotionsverständnisaufgaben bereitstellen. Experimentelle Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistung erzielt und einen neuen Meilenstein über 15 Gesichtswahrnehmungsaufgaben hinweg setzt.
English
Understanding and predicting emotion from videos has gathered significant
attention in recent studies, driven by advancements in video large language
models (VideoLLMs). While advanced methods have made progress in video emotion
analysis, the intrinsic nature of emotions poses significant challenges.
Emotions are characterized by dynamic and cues-dependent properties, making it
difficult to understand complex and evolving emotional states with reasonable
rationale. To tackle these challenges, we propose a novel affective cues-guided
reasoning framework that unifies fundamental attribute perception, expression
analysis, and high-level emotional understanding in a stage-wise manner. At the
core of our approach is a family of video emotion foundation models (VidEmo),
specifically designed for emotion reasoning and instruction-following. These
models undergo a two-stage tuning process: first, curriculum emotion learning
for injecting emotion knowledge, followed by affective-tree reinforcement
learning for emotion reasoning. Moreover, we establish a foundational data
infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG)
consisting of 2.1M diverse instruction-based samples. Emo-CFG includes
explainable emotional question-answering, fine-grained captions, and associated
rationales, providing essential resources for advancing emotion understanding
tasks. Experimental results demonstrate that our approach achieves competitive
performance, setting a new milestone across 15 face perception tasks.