VidEmo: Razonamiento con Árboles Afectivos para Modelos Fundacionales de Video Centrados en la Emoción
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
November 4, 2025
Autores: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI
Resumen
La comprensión y predicción de emociones a partir de vídeos ha captado una atención significativa en estudios recientes, impulsada por los avances en los modelos de lenguaje grande para vídeo (VideoLLMs). Si bien los métodos avanzados han logrado progresos en el análisis de emociones en vídeo, la naturaleza intrínseca de las emociones plantea desafíos importantes. Las emociones se caracterizan por propiedades dinámicas y dependientes de claves, lo que dificulta la comprensión de estados emocionales complejos y en evolución con una justificación razonable. Para abordar estos desafíos, proponemos un novedoso marco de razonamiento guiado por claves afectivas que unifica la percepción de atributos fundamentales, el análisis de expresiones y la comprensión emocional de alto nivel de manera escalonada. El núcleo de nuestro enfoque es una familia de modelos fundamentales de emoción en vídeo (VidEmo), diseñados específicamente para el razonamiento emocional y el seguimiento de instrucciones. Estos modelos se someten a un proceso de ajuste en dos etapas: primero, un aprendizaje emocional curricular para inyectar conocimiento emocional, seguido de un aprendizaje por refuerzo basado en árbol afectivo para el razonamiento emocional. Además, establecemos una infraestructura de datos fundamental e introducimos un conjunto de datos detallado centrado en emociones (Emo-CFG) que consta de 2.1 millones de muestras diversas basadas en instrucciones. Emo-CFG incluye preguntas y respuestas emocionales explicables, descripciones detalladas y las justificaciones asociadas, proporcionando recursos esenciales para avanzar en las tareas de comprensión emocional. Los resultados experimentales demuestran que nuestro enfoque logra un rendimiento competitivo, estableciendo un nuevo hito en 15 tareas de percepción facial.
English
Understanding and predicting emotion from videos has gathered significant
attention in recent studies, driven by advancements in video large language
models (VideoLLMs). While advanced methods have made progress in video emotion
analysis, the intrinsic nature of emotions poses significant challenges.
Emotions are characterized by dynamic and cues-dependent properties, making it
difficult to understand complex and evolving emotional states with reasonable
rationale. To tackle these challenges, we propose a novel affective cues-guided
reasoning framework that unifies fundamental attribute perception, expression
analysis, and high-level emotional understanding in a stage-wise manner. At the
core of our approach is a family of video emotion foundation models (VidEmo),
specifically designed for emotion reasoning and instruction-following. These
models undergo a two-stage tuning process: first, curriculum emotion learning
for injecting emotion knowledge, followed by affective-tree reinforcement
learning for emotion reasoning. Moreover, we establish a foundational data
infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG)
consisting of 2.1M diverse instruction-based samples. Emo-CFG includes
explainable emotional question-answering, fine-grained captions, and associated
rationales, providing essential resources for advancing emotion understanding
tasks. Experimental results demonstrate that our approach achieves competitive
performance, setting a new milestone across 15 face perception tasks.