Video-Skill-CoT : Chaîne de raisonnement basée sur les compétences pour le raisonnement vidéo adaptatif au domaine
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
June 4, 2025
Auteurs: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Résumé
Les récents progrès dans le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) ont amélioré la compréhension complexe des vidéos, mais les méthodes existantes peinent souvent à s'adapter aux compétences spécifiques à un domaine (par exemple, la détection d'événements, la compréhension des relations spatiales, la compréhension des émotions) sur divers contenus vidéo. Pour résoudre ce problème, nous proposons Video-Skill-CoT (alias Video-SKoT), un cadre qui construit et exploite automatiquement des supervisions CoT adaptées aux compétences pour un raisonnement vidéo adaptatif au domaine. Premièrement, nous construisons des annotations CoT basées sur les compétences : nous extrayons les compétences de raisonnement pertinentes pour le domaine à partir des questions d'entraînement, les regroupons en une taxonomie de compétences partagée, et créons une justification CoT détaillée en plusieurs étapes adaptée à chaque paire vidéo-question pour l'entraînement. Deuxièmement, nous introduisons un cadre d'apprentissage expert spécifique aux compétences. Chaque module expert se spécialise dans un sous-ensemble de compétences de raisonnement et est entraîné avec des adaptateurs légers en utilisant la supervision CoT collectée. Nous démontrons l'efficacité de l'approche proposée sur trois benchmarks de compréhension vidéo, où Video-SKoT surpasse systématiquement les bases de référence solides. Nous fournissons également des analyses approfondies comparant différents pipelines d'annotation CoT et les compétences apprises sur plusieurs domaines vidéo.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex
video understanding, but existing methods often struggle to adapt to
domain-specific skills (e.g., event detection, spatial relation understanding,
emotion understanding) over various video content. To address this, we propose
Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs
and leverages skill-aware CoT supervisions for domain-adaptive video reasoning.
First, we construct skill-based CoT annotations: we extract domain-relevant
reasoning skills from training questions, cluster them into a shared skill
taxonomy, and create detailed multi-step CoT rationale tailored to each
video-question pair for training. Second, we introduce a skill-specific expert
learning framework. Each expert module specializes in a subset of reasoning
skills and is trained with lightweight adapters using the collected CoT
supervision. We demonstrate the effectiveness of the proposed approach on three
video understanding benchmarks, where Video-SKoT consistently outperforms
strong baselines. We also provide in-depth analyses on comparing different CoT
annotation pipelines and learned skills over multiple video domains.