EmoVid: Un Conjunto de Datos de Vídeo de Emoción Multimodal para la Comprensión y Generación de Vídeos Centrados en la Emoción
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
Autores: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
Resumen
La emoción juega un papel fundamental en la expresión basada en video, pero los sistemas existentes de generación de video se centran predominantemente en métricas visuales de bajo nivel mientras descuidan las dimensiones afectivas. Aunque el análisis de emociones ha progresado en el dominio visual, la comunidad de video carece de recursos dedicados para conectar la comprensión emocional con las tareas generativas, particularmente para contextos estilizados y no realistas. Para abordar esta brecha, presentamos EmoVid, el primer conjunto de datos de video multimodal y anotado emocionalmente diseñado específicamente para medios creativos, que incluye animaciones de dibujos animados, clips de películas y stickers animados. Cada video está anotado con etiquetas emocionales, atributos visuales (brillo, colorido, tono) y subtítulos de texto. Mediante un análisis sistemático, descubrimos patrones espaciales y temporales que vinculan las características visuales con las percepciones emocionales en diversas formas de video. Basándonos en estas observaciones, desarrollamos una técnica de generación de video condicionada por emociones mediante el ajuste fino del modelo Wan2.1. Los resultados muestran una mejora significativa tanto en las métricas cuantitativas como en la calidad visual de los videos generados para las tareas de texto-a-video e imagen-a-video. EmoVid establece un nuevo punto de referencia para la computación de video afectivo. Nuestro trabajo no solo ofrece perspectivas valiosas para el análisis de emociones visuales en videos de estilo artístico, sino que también proporciona métodos prácticos para mejorar la expresión emocional en la generación de video.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.