VidEmo: 감성 중심 비디오 파운데이션 모델을 위한 감성 트리 추론
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models
November 4, 2025
저자: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI
초록
최근 비디오 대규모 언어 모델(VideoLLMs)의 발전에 힘입어 비디오에서의 감정 이해 및 예측에 대한 연구가 큰 주목을 받고 있습니다. 고급 기법들이 비디오 감정 분석에서 진전을 보였으나, 감정의 본질적 특성으로 인해 여전히 큰 과제가 남아 있습니다. 감정은 동적이고 단서에 의존하는 특성을 지녀, 복잡하고 변화하는 감정 상태를 합리적인 근거와 함께 이해하는 것을 어렵게 만듭니다. 이러한 문제를 해결하기 위해 본 연구에서는 기본 속성 인식, 표현 분석, 고수준 감정 이해를 단계별 방식으로 통합하는 새로운 감정 단서 기반 추론 프레임워크를 제안합니다. 우리 접근법의 핵심은 감정 추론과 지시 따르기에 특화된 비디오 감정 기초 모델(VidEmo) 패밀리입니다. 이 모델들은 두 단계의 조정 과정을 거칩니다: 첫째, 감정 지식을 주입하기 위한 체계적 감정 학습(Curriculum Emotion Learning), 둘째, 감정 추론을 위한 감정 트리 강화 학습(Affective-Tree Reinforcement Learning)입니다. 더불어 본 연구에서는 기초 데이터 인프라를 구축하고 210만 개의 다양한 지시 기반 샘플로 구성된 감정 중심 세분화 데이터셋(Emo-CFG)을 소개합니다. Emo-CFG는 설명 가능한 감정 질의응답, 세분화된 캡션, 관련 근거를 포함하여 감정 이해 과제 발전에 필수적인 자원을 제공합니다. 실험 결과, 우리의 접근법이 15개의 얼굴 인식 과제 전반에 걸쳐 경쟁력 있는 성능을 달성하며 새로운 이정표를 세웠음을 보여줍니다.
English
Understanding and predicting emotion from videos has gathered significant
attention in recent studies, driven by advancements in video large language
models (VideoLLMs). While advanced methods have made progress in video emotion
analysis, the intrinsic nature of emotions poses significant challenges.
Emotions are characterized by dynamic and cues-dependent properties, making it
difficult to understand complex and evolving emotional states with reasonable
rationale. To tackle these challenges, we propose a novel affective cues-guided
reasoning framework that unifies fundamental attribute perception, expression
analysis, and high-level emotional understanding in a stage-wise manner. At the
core of our approach is a family of video emotion foundation models (VidEmo),
specifically designed for emotion reasoning and instruction-following. These
models undergo a two-stage tuning process: first, curriculum emotion learning
for injecting emotion knowledge, followed by affective-tree reinforcement
learning for emotion reasoning. Moreover, we establish a foundational data
infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG)
consisting of 2.1M diverse instruction-based samples. Emo-CFG includes
explainable emotional question-answering, fine-grained captions, and associated
rationales, providing essential resources for advancing emotion understanding
tasks. Experimental results demonstrate that our approach achieves competitive
performance, setting a new milestone across 15 face perception tasks.