ChatPaper.aiChatPaper

EmoVid: 감정 중심 비디오 이해 및 생성을 위한 멀티모달 감정 비디오 데이터셋

EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

November 14, 2025
저자: Zongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang
cs.AI

초록

감정은 영상 기반 표현에서 핵심적인 역할을 하지만, 기존 영상 생성 시스템은 주로 저수준 시각적 지표에 집중하고 감정적 차원을 소홀히 하는 경향이 있습니다. 비록 감정 분석이 시각 영역에서 진전을 이루었으나, 영상 커뮤니티에서는 감정 이해와 생성 작업을 연결하기 위한 전용 자원이 부족한 실정이며, 특히 스타일화된 비사실적 맥락에서 더욱 그러합니다. 이러한 격차를 해소하기 위해 우리는 창의적 미디어(만화 애니메이션, 영화 클립, 애니메이션 스티커)를 위해 특별히 설계된 최초의 다중모달 감정 주석 영상 데이터셋인 EmoVid를 소개합니다. 각 영상은 감정 라벨, 시각적 속도(밝기, 색채도, 색상), 텍스트 캡션으로 주석이 달려 있습니다. 체계적인 분석을 통해 우리는 다양한 영상 형태에 걸쳐 시각적 특징과 감정적 인식을 연결하는 공간적 및 시간적 패턴을 발견했습니다. 이러한 통찰을 바탕으로 우리는 Wan2.1 모델을 미세 조정하여 감정 조건부 영상 생성 기법을 개발했습니다. 결과는 텍스트-투-비디오 및 이미지-투-비디오 작업에서 생성된 영상의 정량적 지표와 시각적 품질 모두에서 상당한 향상을 보여줍니다. EmoVid는 감정 영상 컴퓨팅을 위한 새로운 벤치마크를 확립합니다. 우리의 작업은 예술적으로 스타일링된 영상에서의 시각적 감정 분석에 대한 가치 있는 통찰을 제공할 뿐만 아니라, 영상 생성에서 감정 표현을 향상시키기 위한 실용적인 방법을 제시합니다.
English
Emotion plays a pivotal role in video-based expression, but existing video generation systems predominantly focus on low-level visual metrics while neglecting affective dimensions. Although emotion analysis has made progress in the visual domain, the video community lacks dedicated resources to bridge emotion understanding with generative tasks, particularly for stylized and non-realistic contexts. To address this gap, we introduce EmoVid, the first multimodal, emotion-annotated video dataset specifically designed for creative media, which includes cartoon animations, movie clips, and animated stickers. Each video is annotated with emotion labels, visual attributes (brightness, colorfulness, hue), and text captions. Through systematic analysis, we uncover spatial and temporal patterns linking visual features to emotional perceptions across diverse video forms. Building on these insights, we develop an emotion-conditioned video generation technique by fine-tuning the Wan2.1 model. The results show a significant improvement in both quantitative metrics and the visual quality of generated videos for text-to-video and image-to-video tasks. EmoVid establishes a new benchmark for affective video computing. Our work not only offers valuable insights into visual emotion analysis in artistically styled videos, but also provides practical methods for enhancing emotional expression in video generation.
PDF31December 1, 2025