EmoVid: Un Dataset Video Multimodale delle Emozioni per la Comprensione e Generazione di Video Centrati sulle Emozioni
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
Autori: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
Abstract
L'emozione svolge un ruolo fondamentale nell'espressione basata su video, ma i sistemi esistenti di generazione video si concentrano prevalentemente su metriche visive di basso livello trascurando le dimensioni affettive. Sebbene l'analisi delle emozioni abbia compiuto progressi nel dominio visivo, la comunità video manca di risorse dedicate per collegare la comprensione emotiva con i compiti generativi, specialmente in contesti stilizzati e non realistici. Per colmare questa lacuna, presentiamo EmoVid, il primo dataset video multimodale annotato emotivo specificamente progettato per media creativi, che include animazioni cartonate, clip cinematografiche e sticker animati. Ogni video è annotato con etichette emotive, attributi visivi (luminosità, vivacità cromatica, tonalità) e didascalie testuali. Attraverso un'analisi sistematica, individuiamo modelli spaziali e temporali che collegano le caratteristiche visive alle percezioni emotive attraverso diverse forme video. Basandoci su queste intuizioni, sviluppiamo una tecnica di generazione video condizionata dall'emozione mediante fine-tuning del modello Wan2.1. I risultati mostrano un miglioramento significativo sia nelle metriche quantitative che nella qualità visiva dei video generati per compiti di testo-a-video e immagine-a-video. EmoVid stabilisce un nuovo punto di riferimento per l'informatica video affettiva. Il nostro lavoro non solo offre preziose intuizioni sull'analisi visiva delle emozioni in video di stile artistico, ma fornisce anche metodi pratici per potenziare l'espressione emotiva nella generazione video.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.