ChatPaper.aiChatPaper

EmoVid: 感情中心的な映像理解と生成のためのマルチモーダル感情映像データセット

EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

November 14, 2025
著者: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI

要旨

感情は映像表現において極めて重要な役割を果たすが、既存の映像生成システムは主に低次元の視覚的指標に焦点を当て、感情的な次元を軽視してきた。感情分析は視覚領域で進展を見せているものの、特にスタイライズされた非現実的な文脈において、感情理解と生成タスクを結びつける専用リソースが映像コミュニティには不足している。この問題を解決するため、我々はクリエイティブメディア(漫画アニメーション、映画クリップ、アニメーションスタンプ)に特化した、感情注釈付きの初のマルチモーダル映像データセット「EmoVid」を提案する。各映像には感情ラベル、視覚属性(明度、色彩豊かさ、色相)、テキストキャプションが付与されている。体系的分析を通じて、多様な映像形式にわたる視覚的特徴と感情知覚を結ぶ空間的・時間的パターンを明らかにした。これらの知見に基づき、Wan2.1モデルをファインチューニングした感情条件付き映像生成技術を開発。テキスト/画像からの映像生成タスクにおいて、定量的指標と生成映像の視覚的品質の両方で顕著な改善を実証した。EmoVidは感情映像コンピューティングの新たなベンチマークを確立するものであり、芸術的スタイルの映像における視覚的感情分析への知見を提供するとともに、映像生成の感情表現を強化する実践的手法を提示する。
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.
PDF31December 1, 2025