VidEmo: Razonamiento con Árboles Afectivos para Modelos Fundacionales de Video Centrados en la Emoción

Resumen

La comprensión y predicción de emociones a partir de vídeos ha captado una atención significativa en estudios recientes, impulsada por los avances en los modelos de lenguaje grande para vídeo (VideoLLMs). Si bien los métodos avanzados han logrado progresos en el análisis de emociones en vídeo, la naturaleza intrínseca de las emociones plantea desafíos importantes. Las emociones se caracterizan por propiedades dinámicas y dependientes de claves, lo que dificulta la comprensión de estados emocionales complejos y en evolución con una justificación razonable. Para abordar estos desafíos, proponemos un novedoso marco de razonamiento guiado por claves afectivas que unifica la percepción de atributos fundamentales, el análisis de expresiones y la comprensión emocional de alto nivel de manera escalonada. El núcleo de nuestro enfoque es una familia de modelos fundamentales de emoción en vídeo (VidEmo), diseñados específicamente para el razonamiento emocional y el seguimiento de instrucciones. Estos modelos se someten a un proceso de ajuste en dos etapas: primero, un aprendizaje emocional curricular para inyectar conocimiento emocional, seguido de un aprendizaje por refuerzo basado en árbol afectivo para el razonamiento emocional. Además, establecemos una infraestructura de datos fundamental e introducimos un conjunto de datos detallado centrado en emociones (Emo-CFG) que consta de 2.1 millones de muestras diversas basadas en instrucciones. Emo-CFG incluye preguntas y respuestas emocionales explicables, descripciones detalladas y las justificaciones asociadas, proporcionando recursos esenciales para avanzar en las tareas de comprensión emocional. Los resultados experimentales demuestran que nuestro enfoque logra un rendimiento competitivo, estableciendo un nuevo hito en 15 tareas de percepción facial.

English

Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.

VidEmo: Razonamiento con Árboles Afectivos para Modelos Fundacionales de Video Centrados en la Emoción

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

Resumen

Support