EmoVid: Een Multimodaal Emotie-Videodataset voor Emotiegerichte Videobegrip en -generatie
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
Auteurs: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
Samenvatting
Emotie speelt een cruciale rol in videogebaseerde expressie, maar bestaande videogeneratiesystemen richten zich voornamelijk op visuele metrieken op laag niveau en verwaarlozen de affectieve dimensies. Hoewel emotie-analyse vooruitgang heeft geboekt in het visuele domein, ontbreekt het de videogemeenschap aan toegewijde bronnen om emotiebegrip met generatieve taken te verbinden, vooral voor gestileerde en niet-realistische contexten. Om deze kloof te dichten, introduceren we EmoVid, de eerste multimodale, emotie-geannoteerde videodataset die specifiek is ontworpen voor creatieve media, waaronder tekenfilmanimaties, filmfragmenten en geanimeerde stickers. Elke video is geannoteerd met emotielabels, visuele attributen (helderheid, kleurrijkheid, tint) en tekstuele bijschriften. Door systematische analyse onthullen we ruimtelijke en temporele patronen die visuele kenmerken verbinden met emotionele percepties in diverse videovormen. Op basis van deze inzichten ontwikkelen we een emotie-geconditioneerde videogeneratietechniek door het Wan2.1-model te fine-tunen. De resultaten tonen een significante verbetering in zowel kwantitatieve metrieken als de visuele kwaliteit van gegenereerde video's voor tekst-naar-video en beeld-naar-video taken. EmoVid vestigt een nieuwe benchmark voor affectieve videoverwerking. Ons werk biedt niet alleen waardevolle inzichten in visuele emotie-analyse in artistiek gestileerde video's, maar levert ook praktische methoden voor het versterken van emotionele expressie in videogeneratie.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.