ChatPaper.aiChatPaper

Video-Skill-CoT: Fähigkeitsbasierte Gedankenketten für domänenadaptive Videoanalyse

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

June 4, 2025
Autoren: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Zusammenfassung

Jüngste Fortschritte im Bereich der Chain-of-Thought (CoT)-Argumentation haben das Verständnis komplexer Videos verbessert, doch bestehende Methoden haben oft Schwierigkeiten, sich domänenspezifischen Fähigkeiten (z. B. Ereigniserkennung, Verständnis räumlicher Beziehungen, Emotionsverständnis) über verschiedene Videoinhalte hinweg anzupassen. Um dies zu adressieren, schlagen wir Video-Skill-CoT (auch bekannt als Video-SKoT) vor, ein Framework, das automatisch fähigkeitsbewusste CoT-Aufsichten für domänenadaptives Video-Verstehen konstruiert und nutzt. Zunächst erstellen wir fähigkeitsbasierte CoT-Annotationen: Wir extrahieren domänenrelevante Argumentationsfähigkeiten aus Trainingsfragen, clustern sie in eine gemeinsame Fähigkeitstaxonomie und erstellen detaillierte mehrstufige CoT-Begründungen, die auf jedes Video-Frage-Paar für das Training zugeschnitten sind. Zweitens führen wir ein fähigkeitsspezifisches Expertenlernframework ein. Jedes Expertenmodul spezialisiert sich auf eine Teilmenge von Argumentationsfähigkeiten und wird mit leichtgewichtigen Adaptern unter Verwendung der gesammelten CoT-Aufsicht trainiert. Wir demonstrieren die Wirksamkeit des vorgeschlagenen Ansatzes anhand von drei Video-Verstehens-Benchmarks, bei denen Video-SKoT durchweg starke Baselines übertrifft. Zudem bieten wir detaillierte Analysen zum Vergleich verschiedener CoT-Annotationspipelines und erlernter Fähigkeiten über mehrere Videodomänen hinweg.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex video understanding, but existing methods often struggle to adapt to domain-specific skills (e.g., event detection, spatial relation understanding, emotion understanding) over various video content. To address this, we propose Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs and leverages skill-aware CoT supervisions for domain-adaptive video reasoning. First, we construct skill-based CoT annotations: we extract domain-relevant reasoning skills from training questions, cluster them into a shared skill taxonomy, and create detailed multi-step CoT rationale tailored to each video-question pair for training. Second, we introduce a skill-specific expert learning framework. Each expert module specializes in a subset of reasoning skills and is trained with lightweight adapters using the collected CoT supervision. We demonstrate the effectiveness of the proposed approach on three video understanding benchmarks, where Video-SKoT consistently outperforms strong baselines. We also provide in-depth analyses on comparing different CoT annotation pipelines and learned skills over multiple video domains.
PDF52June 5, 2025