ChatPaper.aiChatPaper

VidEmo: 感情中心ビデオ基盤モデルのための感情ツリー推論

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
著者: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

要旨

近年、ビデオ大規模言語モデル(VideoLLM)の進歩を背景に、映像からの感情の理解と予測に関する研究が注目を集めている。高度な手法が映像感情分析において進展を見せる一方で、感情そのものの性質が重大な課題をもたらしている。感情は動的かつ手がかり依存的特性を有するため、複雑に変化する感情状態を合理的な根拠をもって理解することは困難である。これらの課題に対処するため、本論文では、基礎的属性の知覚、表情分析、高次元の感情理解を段階的に統合する、新しい感情手がかり誘導型推論フレームワークを提案する。本手法の中核を成すのは、感情推論と指示追従に特化して設計されたビデオ感情基盤モデル群(VidEmo)である。これらのモデルは2段階の調整プロセスを経る:まず、感情知識を注入するためのカリキュラム感情学習、続いて感情推論のための感情ツリー強化学習を実施する。さらに、基盤的なデータインフラを構築し、210万の多様な指示ベースサンプルからなる感情中心の細粒度データセット(Emo-CFG)を導入する。Emo-CFGは、説明可能な感情質問応答、細粒度キャプション、関連する根拠を含み、感情理解タスクの発展に不可欠なリソースを提供する。実験結果では、本手法が競争力のある性能を達成し、15の顔知覚タスクにおいて新たなマイルストーンを確立したことを示す。
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025