VidEmo: Raciocínio por Árvore Afetiva para Modelos de Base em Vídeo Centrados na Emoção
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
November 4, 2025
Autores: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI
Resumo
A compreensão e previsão de emoções em vídeos tem recebido atenção significativa em estudos recentes, impulsionada pelos avanços nos modelos de linguagem de grande escala para vídeo (VideoLLMs). Embora métodos avançados tenham progredido na análise de emoções em vídeo, a natureza intrínseca das emoções impõe desafios significativos. As emoções são caracterizadas por propriedades dinâmicas e dependentes de pistas, tornando difícil compreender estados emocionais complexos e em evolução com uma fundamentação razoável. Para enfrentar esses desafios, propomos uma nova estrutura de raciocínio guiada por pistas afetivas que unifica a percepção de atributos fundamentais, a análise de expressão e a compreensão emocional de alto nível de forma escalonada. O cerne da nossa abordagem é uma família de modelos fundamentais de emoção em vídeo (VidEmo), especificamente concebida para raciocínio emocional e seguimento de instruções. Estes modelos passam por um processo de ajuste em duas etapas: primeiro, uma aprendizagem emocional curricular para injetar conhecimento sobre emoções, seguida por uma aprendizagem por reforço com árvore afetiva para raciocínio emocional. Além disso, estabelecemos uma infraestrutura de dados fundamental e introduzimos um conjunto de dados granular centrado em emoções (Emo-CFG) composto por 2,1 milhões de amostras diversificadas baseadas em instruções. O Emo-CFG inclui questionários emocionais explicativos, legendas granulares e racionalizações associadas, fornecendo recursos essenciais para o avanço de tarefas de compreensão emocional. Resultados experimentais demonstram que a nossa abordagem alcança um desempenho competitivo, estabelecendo um novo marco em 15 tarefas de percepção facial.
English
Understanding and predicting emotion from videos has gathered significant
attention in recent studies, driven by advancements in video large language
models (VideoLLMs). While advanced methods have made progress in video emotion
analysis, the intrinsic nature of emotions poses significant challenges.
Emotions are characterized by dynamic and cues-dependent properties, making it
difficult to understand complex and evolving emotional states with reasonable
rationale. To tackle these challenges, we propose a novel affective cues-guided
reasoning framework that unifies fundamental attribute perception, expression
analysis, and high-level emotional understanding in a stage-wise manner. At the
core of our approach is a family of video emotion foundation models (VidEmo),
specifically designed for emotion reasoning and instruction-following. These
models undergo a two-stage tuning process: first, curriculum emotion learning
for injecting emotion knowledge, followed by affective-tree reinforcement
learning for emotion reasoning. Moreover, we establish a foundational data
infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG)
consisting of 2.1M diverse instruction-based samples. Emo-CFG includes
explainable emotional question-answering, fine-grained captions, and associated
rationales, providing essential resources for advancing emotion understanding
tasks. Experimental results demonstrate that our approach achieves competitive
performance, setting a new milestone across 15 face perception tasks.