EmoVid: Um Conjunto de Dados de Vídeos de Emoções Multimodal para Compreensão e Geração de Vídeos Centrados na Emoção

Resumo

A emoção desempenha um papel fundamental na expressão baseada em vídeo, mas os sistemas existentes de geração de vídeo concentram-se predominantemente em métricas visuais de baixo nível, negligenciando as dimensões afetivas. Embora a análise de emoções tenha progredido no domínio visual, a comunidade de vídeo carece de recursos dedicados para ligar a compreensão emocional com tarefas generativas, particularmente em contextos estilizados e não realistas. Para colmatar esta lacuna, apresentamos o EmoVid, o primeiro conjunto de dados de vídeo multimodal e anotado emocionalmente, concebido especificamente para media criativa, que inclui animações de cartoon, excertos de filmes e *stickers* animados. Cada vídeo é anotado com etiquetas de emoção, atributos visuais (brilho, intensidade de cor, matiz) e legendas textuais. Através de uma análise sistemática, descobrimos padrões espaciais e temporais que ligam características visuais a perceções emocionais em diversas formas de vídeo. Com base nestas perceções, desenvolvemos uma técnica de geração de vídeo condicionada por emoção, através do *fine-tuning* do modelo Wan2.1. Os resultados mostram uma melhoria significativa tanto nas métricas quantitativas como na qualidade visual dos vídeos gerados para tarefas de texto-para-vídeo e imagem-para-vídeo. O EmoVid estabelece um novo referencial para a computação de vídeo afetiva. O nosso trabalho não só oferece perceções valiosas para a análise de emoções visuais em vídeos de estilo artístico, como também fornece métodos práticos para melhorar a expressão emocional na geração de vídeo.

English

Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.

EmoVid: Um Conjunto de Dados de Vídeos de Emoções Multimodal para Compreensão e Geração de Vídeos Centrados na Emoção

EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

Resumo

Support