EmoVid: Мультимодальный видео-датасет эмоций для анализа и генерации видео с фокусом на эмоциях
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation
November 14, 2025
Авторы: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI
Аннотация
Эмоции играют ключевую роль в видеоэкспрессии, однако существующие системы генерации видео в основном сосредоточены на низкоуровневых визуальных метриках, пренебрегая аффективными измерениями. Несмотря на прогресс в анализе эмоций в визуальной области, видеосообщество испытывает нехватку специализированных ресурсов, связывающих понимание эмоций с генеративными задачами, особенно в стилизованных и нереалистичных контекстах. Для устранения этого пробела мы представляем EmoVid — первый мультимодальный видео-датасет с эмоциональными аннотациями, специально созданный для творческого контента, включающий анимационные мультфильмы, кинофрагменты и анимированные стикеры. Каждое видео аннотировано эмоциональными метками, визуальными атрибутами (яркость, цветность, оттенок) и текстовыми описаниями. Посредством системного анализа мы выявляем пространственно-временные закономерности, связывающие визуальные характеристики с эмоциональным восприятием в разнообразных формах видео. На основе этих инсайтов мы разрабатываем технику генерации видео с условием по эмоциям путем дообучения модели Wan2.1. Результаты демонстрируют значительное улучшение как количественных метрик, так и визуального качества генерируемых видео для задач text-to-video и image-to-video. EmoVid устанавливает новый стандарт для аффективной видеообработки. Наша работа не только предоставляет ценные insights для визуального анализа эмоций в художественно стилизованных видео, но и предлагает практические методы усиления эмоциональной выразительности в генерации видео.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.