ChatPaper.aiChatPaper

VidEmo: Affective-Tree Reasoning für emotionszentrierte Video-Foundation-Modelle

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
papers.authors: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

papers.abstract

Das Verständnis und die Vorhersage von Emotionen in Videos hat in jüngsten Studien, bedingt durch Fortschritte bei Video-Large-Language-Models (VideoLLMs), erheblich an Bedeutung gewonnen. Obwohl fortschrittliche Methoden Fortschritte in der Video-Emotionsanalyse erzielt haben, stellt die intrinsische Natur von Emotionen erhebliche Herausforderungen dar. Emotionen sind durch dynamische und kontextabhängige Eigenschaften gekennzeichnet, was es schwierig macht, komplexe und sich entwickelnde emotionale Zustände mit nachvollziehbaren Begründungen zu verstehen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges, affektiv geleitetes Reasoning-Framework vor, das grundlegende Attributwahrnehmung, Ausdrucksanalyse und hochrangiges Emotionsverständnis stufenweise vereint. Kern unseres Ansatzes ist eine Familie von Video-Emotions-Foundation-Models (VidEmo), die speziell für Emotionsreasoning und Befolgung von Instruktionen entwickelt wurden. Diese Modelle durchlaufen einen zweistufigen Abstimmungsprozess: erstens curriculum-basiertes Emotionslernen zur Vermittlung von Emotionswissen, gefolgt von affektiv-baumbasiertem bestärkendem Lernen für das Emotionsreasoning. Darüber hinaus schaffen wir eine grundlegende Dateninfrastruktur und führen einen emotionszentrierten, feinkörnigen Datensatz (Emo-CFG) ein, der 2,1 Millionen verschiedene instruktionsbasierte Beispiele umfasst. Emo-CFG enthält erklärbare emotionale Frage-Antwort-Paare, feinkörnige Beschreibungen und zugehörige Begründungen, die wesentliche Ressourcen für die Weiterentwicklung von Emotionsverständnisaufgaben bereitstellen. Experimentelle Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistung erzielt und einen neuen Meilenstein über 15 Gesichtswahrnehmungsaufgaben hinweg setzt.
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025