EmoVid : un jeu de données vidéo multimodal pour les émotions, destiné à la compréhension et à la génération de vidéos centrées sur les affects
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
papers.authors: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
papers.abstract
L'émotion joue un rôle central dans l'expression vidéo, mais les systèmes de génération existants se concentrent principalement sur des métriques visuelles de bas niveau tout en négligeant les dimensions affectives. Bien que l'analyse des émotions ait progressé dans le domaine visuel, la communauté de la vidéo manque de ressources dédiées pour relier la compréhension des émotions aux tâches génératives, en particulier dans des contextes stylisés et non réalistes. Pour combler cette lacune, nous présentons EmoVid, le premier ensemble de données vidéo multimodal et annoté en émotions, spécifiquement conçu pour les médias créatifs, incluant des animations cartoon, des clips de films et des autocollants animés. Chaque vidéo est annotée avec des labels d'émotion, des attributs visuels (luminosité, intensité chromatique, teinte) et des légendes textuelles. Par une analyse systématique, nous mettons en évidence des motifs spatiaux et temporels reliant les caractéristiques visuelles aux perceptions émotionnelles à travers diverses formes vidéo. Sur la base de ces observations, nous développons une technique de génération vidéo conditionnée par l'émotion en affinant le modèle Wan2.1. Les résultats montrent une amélioration significative à la fois des métriques quantitatives et de la qualité visuelle des vidéos générées pour les tâches de texte-à-vidéo et d'image-à-vidéo. EmoVid établit une nouvelle référence pour l'informatique affective vidéo. Notre travail offre non seulement des perspectives précises sur l'analyse des émotions visuelles dans les vidéos de style artistique, mais propose également des méthodes pratiques pour améliorer l'expression émotionnelle dans la génération vidéo.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.