Video-Skill-CoT: Cadena de Pensamientos Basada en Habilidades para el Razonamiento Adaptativo de Dominio en Videos
Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning
June 4, 2025
Autores: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI
Resumen
Los avances recientes en el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) han mejorado la comprensión compleja de videos, pero los métodos existentes a menudo tienen dificultades para adaptarse a habilidades específicas del dominio (por ejemplo, detección de eventos, comprensión de relaciones espaciales, comprensión de emociones) en diversos contenidos de video. Para abordar esto, proponemos Video-Skill-CoT (también conocido como Video-SKoT), un marco que construye y aprovecha automáticamente supervisiones de CoT conscientes de habilidades para el razonamiento adaptativo de video. Primero, construimos anotaciones de CoT basadas en habilidades: extraemos habilidades de razonamiento relevantes para el dominio a partir de preguntas de entrenamiento, las agrupamos en una taxonomía de habilidades compartida y creamos una justificación detallada de CoT en múltiples pasos adaptada a cada par video-pregunta para el entrenamiento. Segundo, introducimos un marco de aprendizaje experto específico para habilidades. Cada módulo experto se especializa en un subconjunto de habilidades de razonamiento y se entrena con adaptadores ligeros utilizando la supervisión de CoT recopilada. Demostramos la efectividad del enfoque propuesto en tres puntos de referencia de comprensión de video, donde Video-SKoT supera consistentemente a las líneas base sólidas. También proporcionamos análisis en profundidad sobre la comparación de diferentes pipelines de anotación de CoT y las habilidades aprendidas en múltiples dominios de video.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex
video understanding, but existing methods often struggle to adapt to
domain-specific skills (e.g., event detection, spatial relation understanding,
emotion understanding) over various video content. To address this, we propose
Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs
and leverages skill-aware CoT supervisions for domain-adaptive video reasoning.
First, we construct skill-based CoT annotations: we extract domain-relevant
reasoning skills from training questions, cluster them into a shared skill
taxonomy, and create detailed multi-step CoT rationale tailored to each
video-question pair for training. Second, we introduce a skill-specific expert
learning framework. Each expert module specializes in a subset of reasoning
skills and is trained with lightweight adapters using the collected CoT
supervision. We demonstrate the effectiveness of the proposed approach on three
video understanding benchmarks, where Video-SKoT consistently outperforms
strong baselines. We also provide in-depth analyses on comparing different CoT
annotation pipelines and learned skills over multiple video domains.