VidEmo: Raciocínio por Árvore Afetiva para Modelos de Base em Vídeo Centrados na Emoção

Resumo

A compreensão e previsão de emoções em vídeos tem recebido atenção significativa em estudos recentes, impulsionada pelos avanços nos modelos de linguagem de grande escala para vídeo (VideoLLMs). Embora métodos avançados tenham progredido na análise de emoções em vídeo, a natureza intrínseca das emoções impõe desafios significativos. As emoções são caracterizadas por propriedades dinâmicas e dependentes de pistas, tornando difícil compreender estados emocionais complexos e em evolução com uma fundamentação razoável. Para enfrentar esses desafios, propomos uma nova estrutura de raciocínio guiada por pistas afetivas que unifica a percepção de atributos fundamentais, a análise de expressão e a compreensão emocional de alto nível de forma escalonada. O cerne da nossa abordagem é uma família de modelos fundamentais de emoção em vídeo (VidEmo), especificamente concebida para raciocínio emocional e seguimento de instruções. Estes modelos passam por um processo de ajuste em duas etapas: primeiro, uma aprendizagem emocional curricular para injetar conhecimento sobre emoções, seguida por uma aprendizagem por reforço com árvore afetiva para raciocínio emocional. Além disso, estabelecemos uma infraestrutura de dados fundamental e introduzimos um conjunto de dados granular centrado em emoções (Emo-CFG) composto por 2,1 milhões de amostras diversificadas baseadas em instruções. O Emo-CFG inclui questionários emocionais explicativos, legendas granulares e racionalizações associadas, fornecendo recursos essenciais para o avanço de tarefas de compreensão emocional. Resultados experimentais demonstram que a nossa abordagem alcança um desempenho competitivo, estabelecendo um novo marco em 15 tarefas de percepção facial.

English

Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.

VidEmo: Raciocínio por Árvore Afetiva para Modelos de Base em Vídeo Centrados na Emoção

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

Resumo

Support