ChatPaper.aiChatPaper

VidEmo : Raisonnement par arbre affectif pour les modèles de fondation vidéo centrés sur l'émotion

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
papers.authors: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

papers.abstract

La compréhension et la prédiction des émotions à partir de vidéos ont suscité un intérêt considérable dans les études récentes, portées par les progrès des grands modèles linguistiques vidéo (VideoLLMs). Bien que les méthodes avancées aient réalisé des progrès dans l'analyse des émotions vidéo, la nature intrinsèque des émotions présente des défis majeurs. Les émotions se caractérisent par des propriétés dynamiques et dépendantes d'indices contextuels, rendant difficile la compréhension d'états émotionnels complexes et évolutifs avec un raisonnement justifiable. Pour relever ces défis, nous proposons un nouveau cadre de raisonnement guidé par les indices affectifs qui unifie la perception des attributs fondamentaux, l'analyse des expressions et la compréhension émotionnelle de haut niveau de manière séquentielle. Au cœur de notre approche se trouve une famille de modèles fondamentaux pour l'émotion vidéo (VidEmo), spécialement conçue pour le raisonnement émotionnel et le suivi d'instructions. Ces modèles suivent un processus d'ajustement en deux étapes : d'abord, un apprentissage curriculaire des émotions pour intégrer des connaissances émotionnelles, suivi d'un apprentissage par renforcement arborescent affectif pour le raisonnement émotionnel. Par ailleurs, nous avons établi une infrastructure de données fondamentale et introduit un jeu de données granulaire centré sur l'émotion (Emo-CFG) comprenant 2,1 million d'échantillons diversifiés basés sur des instructions. Emo-CFG inclut des questions-réponses émotionnelles explicables, des descriptions granulaires et des rationalités associées, fournissant des ressources essentielles pour faire progresser les tâches de compréhension des émotions. Les résultats expérimentaux démontrent que notre approche atteint des performances compétitives, établissant un nouveau jalon sur 15 tâches de perception faciale.
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025