ChatPaper.aiChatPaper

VidEmo: Аффективно-древесное рассуждение для эмоционально-ориентированных базовых моделей видео

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

November 4, 2025
Авторы: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang
cs.AI

Аннотация

Понимание и прогнозирование эмоций по видеоматериалам привлекает значительное внимание в последних исследованиях, чему способствуют достижения в области больших языковых моделей для видео (VideoLLM). Хотя современные методы добились прогресса в анализе эмоций на видео, сама природа эмоций создает серьезные трудности. Эмоции характеризуются динамичностью и зависимостью от контекстуальных сигналов, что затрудняет понимание сложных и развивающихся эмоциональных состояний с разумным обоснованием. Для решения этих проблем мы предлагаем новую систему аффективно-ориентированного логического вывода, которая унифицирует базовое восприятие атрибутов, анализ экспрессии и высокоуровневое понимание эмоций поэтапным образом. Основой нашего подхода является семейство фундаментальных моделей для анализа эмоций в видео (VidEmo), специально разработанных для эмоционального вывода и следования инструкциям. Эти модели проходят двухэтапную настройку: сначала обучение эмоциям по учебному плану для внедрения знаний об эмоциях, а затем обучение с подкреплением на основе аффективного дерева для эмоционального вывода. Кроме того, мы создаем базовую инфраструктуру данных и представляем ориентированный на эмоции детализированный набор данных (Emo-CFG), состоящий из 2.1 миллиона разнообразных инструктивных примеров. Emo-CFG включает объясняемые вопросы и ответы об эмоциях, детализированные описания и соответствующие обоснования, предоставляя необходимые ресурсы для продвижения задач понимания эмоций. Результаты экспериментов показывают, что наш подход демонстрирует конкурентоспособные результаты, устанавливая новую веху в 15 задачах восприятия лиц.
English
Understanding and predicting emotion from videos has gathered significant attention in recent studies, driven by advancements in video large language models (VideoLLMs). While advanced methods have made progress in video emotion analysis, the intrinsic nature of emotions poses significant challenges. Emotions are characterized by dynamic and cues-dependent properties, making it difficult to understand complex and evolving emotional states with reasonable rationale. To tackle these challenges, we propose a novel affective cues-guided reasoning framework that unifies fundamental attribute perception, expression analysis, and high-level emotional understanding in a stage-wise manner. At the core of our approach is a family of video emotion foundation models (VidEmo), specifically designed for emotion reasoning and instruction-following. These models undergo a two-stage tuning process: first, curriculum emotion learning for injecting emotion knowledge, followed by affective-tree reinforcement learning for emotion reasoning. Moreover, we establish a foundational data infrastructure and introduce a emotion-centric fine-grained dataset (Emo-CFG) consisting of 2.1M diverse instruction-based samples. Emo-CFG includes explainable emotional question-answering, fine-grained captions, and associated rationales, providing essential resources for advancing emotion understanding tasks. Experimental results demonstrate that our approach achieves competitive performance, setting a new milestone across 15 face perception tasks.
PDF31December 2, 2025