Video-Skill-CoT: Vaardigheidsgebaseerde Gedachteketens voor Domeinadaptieve Videoredenering

Samenvatting

Recente vooruitgang in Chain-of-Thought (CoT) redeneren heeft het begrip van complexe video's verbeterd, maar bestaande methoden hebben vaak moeite om zich aan te passen aan domeinspecifieke vaardigheden (bijvoorbeeld gebeurtenisdetectie, ruimtelijk relatiebegrip, emotiebegrip) over verschillende video-inhouden. Om dit aan te pakken, stellen we Video-Skill-CoT (ook wel Video-SKoT genoemd) voor, een raamwerk dat automatisch vaardigheidsbewuste CoT-begeleiding construeert en benut voor domeinadaptieve videoredenering. Ten eerste construeren we op vaardigheden gebaseerde CoT-annotaties: we extraheren domeinrelevante redeneervaardigheden uit trainingsvragen, clusteren deze in een gedeelde vaardigheidstaxonomie, en creëren gedetailleerde meerstaps CoT-redeneringen die zijn toegesneden op elk video-vraagpaar voor training. Ten tweede introduceren we een vaardigheidspecifiek expert-leerframework. Elke expertmodule specialiseert zich in een subset van redeneervaardigheden en wordt getraind met lichtgewicht adapters met behulp van de verzamelde CoT-begeleiding. We demonstreren de effectiviteit van de voorgestelde aanpak op drie videobegrip-benchmarks, waar Video-SKoT consistent sterke basislijnen overtreft. We bieden ook diepgaande analyses over het vergelijken van verschillende CoT-annotatiepijplijnen en geleerde vaardigheden over meerdere videodomeinen.

English

Recent advances in Chain-of-Thought (CoT) reasoning have improved complex video understanding, but existing methods often struggle to adapt to domain-specific skills (e.g., event detection, spatial relation understanding, emotion understanding) over various video content. To address this, we propose Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs and leverages skill-aware CoT supervisions for domain-adaptive video reasoning. First, we construct skill-based CoT annotations: we extract domain-relevant reasoning skills from training questions, cluster them into a shared skill taxonomy, and create detailed multi-step CoT rationale tailored to each video-question pair for training. Second, we introduce a skill-specific expert learning framework. Each expert module specializes in a subset of reasoning skills and is trained with lightweight adapters using the collected CoT supervision. We demonstrate the effectiveness of the proposed approach on three video understanding benchmarks, where Video-SKoT consistently outperforms strong baselines. We also provide in-depth analyses on comparing different CoT annotation pipelines and learned skills over multiple video domains.

Video-Skill-CoT: Vaardigheidsgebaseerde Gedachteketens voor Domeinadaptieve Videoredenering

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

Samenvatting

Support