EmoVid: Ein multimodaler Emotions-Video-Datensatz für emotionszentriertes Video-Verständnis und -Generierung
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
papers.authors: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
papers.abstract
Emotionen spielen eine entscheidende Rolle bei der videobasierten Ausdrucksvermittlung, doch bestehende Videogenerierungssysteme konzentrieren sich überwiegend auf niedrigschwellige visuelle Metriken und vernachlässigen affektive Dimensionen. Obwohl die Emotionsanalyse im visuellen Bereich Fortschritte erzielt hat, fehlen der Videogemeinschaft dedizierte Ressourcen, um Emotionsverständnis mit generativen Aufgaben zu verbinden, insbesondere für stilisierte und nicht-realistische Kontexte. Um diese Lücke zu schließen, stellen wir EmoVid vor, den ersten multimodalen, emotionsannotierten Videodatensatz, der speziell für kreative Medien entwickelt wurde und Cartoon-Animationen, Filmclips und animierte Sticker umfasst. Jedes Video ist mit Emotionslabels, visuellen Attributen (Helligkeit, Farbintensität, Farbton) und Textbeschreibungen annotiert. Durch systematische Analysen decken wir räumliche und zeitliche Muster auf, die visuelle Merkmale mit emotionalen Wahrnehmungen über verschiedene Videoformen hinweg verknüpfen. Aufbauend auf diesen Erkenntnissen entwickeln wir eine emotionskonditionierte Videogenerierungstechnik durch Fine-Tuning des WAN2.1-Modells. Die Ergebnisse zeigen eine signifikante Verbesserung sowohl quantitativer Metriken als auch der visuellen Qualität generierter Videos bei Text-zu-Video- und Bild-zu-Video-Aufgaben. EmoVid setzt einen neuen Maßstab für die affektive Videoverarbeitung. Unsere Arbeit bietet nicht nur wertvolle Einblicke in die visuelle Emotionsanalyse bei künstlerisch gestalteten Videos, sondern liefert auch praktische Methoden zur Verbesserung des emotionalen Ausdrucks in der Videogenerierung.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.