Video-Skill-CoT: Fähigkeitsbasierte Gedankenketten für domänenadaptive Videoanalyse
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
June 4, 2025
Autoren: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich der Chain-of-Thought (CoT)-Argumentation haben das Verständnis komplexer Videos verbessert, doch bestehende Methoden haben oft Schwierigkeiten, sich domänenspezifischen Fähigkeiten (z. B. Ereigniserkennung, Verständnis räumlicher Beziehungen, Emotionsverständnis) über verschiedene Videoinhalte hinweg anzupassen. Um dies zu adressieren, schlagen wir Video-Skill-CoT (auch bekannt als Video-SKoT) vor, ein Framework, das automatisch fähigkeitsbewusste CoT-Aufsichten für domänenadaptives Video-Verstehen konstruiert und nutzt. Zunächst erstellen wir fähigkeitsbasierte CoT-Annotationen: Wir extrahieren domänenrelevante Argumentationsfähigkeiten aus Trainingsfragen, clustern sie in eine gemeinsame Fähigkeitstaxonomie und erstellen detaillierte mehrstufige CoT-Begründungen, die auf jedes Video-Frage-Paar für das Training zugeschnitten sind. Zweitens führen wir ein fähigkeitsspezifisches Expertenlernframework ein. Jedes Expertenmodul spezialisiert sich auf eine Teilmenge von Argumentationsfähigkeiten und wird mit leichtgewichtigen Adaptern unter Verwendung der gesammelten CoT-Aufsicht trainiert. Wir demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes anhand von drei Video-Verstehens-Benchmarks, bei denen Video-SKoT durchweg starke Baselines übertrifft. Zudem bieten wir detaillierte Analysen zum Vergleich verschiedener CoT-Annotationspipelines und erlernter Fähigkeiten über mehrere Videodomänen hinweg.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex
video understanding, but existing methods often struggle to adapt to
domain-specific skills (e.g., event detection, spatial relation understanding,
emotion understanding) over various video content. To address this, we propose
Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs
and leverages skill-aware CoT supervisions for domain-adaptive video reasoning.
First, we construct skill-based CoT annotations: we extract domain-relevant
reasoning skills from training questions, cluster them into a shared skill
taxonomy, and create detailed multi-step CoT rationale tailored to each
video-question pair for training. Second, we introduce a skill-specific expert
learning framework. Each expert module specializes in a subset of reasoning
skills and is trained with lightweight adapters using the collected CoT
supervision. We demonstrate the effectiveness of the proposed approach on three
video understanding benchmarks, where Video-SKoT consistently outperforms
strong baselines. We also provide in-depth analyses on comparing different CoT
annotation pipelines and learned skills over multiple video domains.