Video-Skill-CoT: Vaardigheidsgebaseerde Gedachteketens voor Domeinadaptieve Videoredenering
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
June 4, 2025
Auteurs: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Samenvatting
Recente vooruitgang in Chain-of-Thought (CoT) redeneren heeft het begrip van complexe video's verbeterd, maar bestaande methoden hebben vaak moeite om zich aan te passen aan domeinspecifieke vaardigheden (bijvoorbeeld gebeurtenisdetectie, ruimtelijk relatiebegrip, emotiebegrip) over verschillende video-inhouden. Om dit aan te pakken, stellen we Video-Skill-CoT (ook wel Video-SKoT genoemd) voor, een raamwerk dat automatisch vaardigheidsbewuste CoT-begeleiding construeert en benut voor domeinadaptieve videoredenering. Ten eerste construeren we op vaardigheden gebaseerde CoT-annotaties: we extraheren domeinrelevante redeneervaardigheden uit trainingsvragen, clusteren deze in een gedeelde vaardigheidstaxonomie, en creëren gedetailleerde meerstaps CoT-redeneringen die zijn toegesneden op elk video-vraagpaar voor training. Ten tweede introduceren we een vaardigheidspecifiek expert-leerframework. Elke expertmodule specialiseert zich in een subset van redeneervaardigheden en wordt getraind met lichtgewicht adapters met behulp van de verzamelde CoT-begeleiding. We demonstreren de effectiviteit van de voorgestelde aanpak op drie videobegrip-benchmarks, waar Video-SKoT consistent sterke basislijnen overtreft. We bieden ook diepgaande analyses over het vergelijken van verschillende CoT-annotatiepijplijnen en geleerde vaardigheden over meerdere videodomeinen.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex
video understanding, but existing methods often struggle to adapt to
domain-specific skills (e.g., event detection, spatial relation understanding,
emotion understanding) over various video content. To address this, we propose
Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs
and leverages skill-aware CoT supervisions for domain-adaptive video reasoning.
First, we construct skill-based CoT annotations: we extract domain-relevant
reasoning skills from training questions, cluster them into a shared skill
taxonomy, and create detailed multi-step CoT rationale tailored to each
video-question pair for training. Second, we introduce a skill-specific expert
learning framework. Each expert module specializes in a subset of reasoning
skills and is trained with lightweight adapters using the collected CoT
supervision. We demonstrate the effectiveness of the proposed approach on three
video understanding benchmarks, where Video-SKoT consistently outperforms
strong baselines. We also provide in-depth analyses on comparing different CoT
annotation pipelines and learned skills over multiple video domains.