ChatPaper.aiChatPaper

Video-Skill-CoT : Chaîne de raisonnement basée sur les compétences pour le raisonnement vidéo adaptatif au domaine

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

June 4, 2025
Auteurs: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Résumé

Les récents progrès dans le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) ont amélioré la compréhension complexe des vidéos, mais les méthodes existantes peinent souvent à s'adapter aux compétences spécifiques à un domaine (par exemple, la détection d'événements, la compréhension des relations spatiales, la compréhension des émotions) sur divers contenus vidéo. Pour résoudre ce problème, nous proposons Video-Skill-CoT (alias Video-SKoT), un cadre qui construit et exploite automatiquement des supervisions CoT adaptées aux compétences pour un raisonnement vidéo adaptatif au domaine. Premièrement, nous construisons des annotations CoT basées sur les compétences : nous extrayons les compétences de raisonnement pertinentes pour le domaine à partir des questions d'entraînement, les regroupons en une taxonomie de compétences partagée, et créons une justification CoT détaillée en plusieurs étapes adaptée à chaque paire vidéo-question pour l'entraînement. Deuxièmement, nous introduisons un cadre d'apprentissage expert spécifique aux compétences. Chaque module expert se spécialise dans un sous-ensemble de compétences de raisonnement et est entraîné avec des adaptateurs légers en utilisant la supervision CoT collectée. Nous démontrons l'efficacité de l'approche proposée sur trois benchmarks de compréhension vidéo, où Video-SKoT surpasse systématiquement les bases de référence solides. Nous fournissons également des analyses approfondies comparant différents pipelines d'annotation CoT et les compétences apprises sur plusieurs domaines vidéo.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex video understanding, but existing methods often struggle to adapt to domain-specific skills (e.g., event detection, spatial relation understanding, emotion understanding) over various video content. To address this, we propose Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs and leverages skill-aware CoT supervisions for domain-adaptive video reasoning. First, we construct skill-based CoT annotations: we extract domain-relevant reasoning skills from training questions, cluster them into a shared skill taxonomy, and create detailed multi-step CoT rationale tailored to each video-question pair for training. Second, we introduce a skill-specific expert learning framework. Each expert module specializes in a subset of reasoning skills and is trained with lightweight adapters using the collected CoT supervision. We demonstrate the effectiveness of the proposed approach on three video understanding benchmarks, where Video-SKoT consistently outperforms strong baselines. We also provide in-depth analyses on comparing different CoT annotation pipelines and learned skills over multiple video domains.
PDF52June 5, 2025