Video-Skill-CoT: Cadena de Pensamientos Basada en Habilidades para el Razonamiento Adaptativo de Dominio en Videos

Resumen

Los avances recientes en el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) han mejorado la comprensión compleja de videos, pero los métodos existentes a menudo tienen dificultades para adaptarse a habilidades específicas del dominio (por ejemplo, detección de eventos, comprensión de relaciones espaciales, comprensión de emociones) en diversos contenidos de video. Para abordar esto, proponemos Video-Skill-CoT (también conocido como Video-SKoT), un marco que construye y aprovecha automáticamente supervisiones de CoT conscientes de habilidades para el razonamiento adaptativo de video. Primero, construimos anotaciones de CoT basadas en habilidades: extraemos habilidades de razonamiento relevantes para el dominio a partir de preguntas de entrenamiento, las agrupamos en una taxonomía de habilidades compartida y creamos una justificación detallada de CoT en múltiples pasos adaptada a cada par video-pregunta para el entrenamiento. Segundo, introducimos un marco de aprendizaje experto específico para habilidades. Cada módulo experto se especializa en un subconjunto de habilidades de razonamiento y se entrena con adaptadores ligeros utilizando la supervisión de CoT recopilada. Demostramos la efectividad del enfoque propuesto en tres puntos de referencia de comprensión de video, donde Video-SKoT supera consistentemente a las líneas base sólidas. También proporcionamos análisis en profundidad sobre la comparación de diferentes pipelines de anotación de CoT y las habilidades aprendidas en múltiples dominios de video.

English

Recent advances in Chain-of-Thought (CoT) reasoning have improved complex video understanding, but existing methods often struggle to adapt to domain-specific skills (e.g., event detection, spatial relation understanding, emotion understanding) over various video content. To address this, we propose Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs and leverages skill-aware CoT supervisions for domain-adaptive video reasoning. First, we construct skill-based CoT annotations: we extract domain-relevant reasoning skills from training questions, cluster them into a shared skill taxonomy, and create detailed multi-step CoT rationale tailored to each video-question pair for training. Second, we introduce a skill-specific expert learning framework. Each expert module specializes in a subset of reasoning skills and is trained with lightweight adapters using the collected CoT supervision. We demonstrate the effectiveness of the proposed approach on three video understanding benchmarks, where Video-SKoT consistently outperforms strong baselines. We also provide in-depth analyses on comparing different CoT annotation pipelines and learned skills over multiple video domains.

Video-Skill-CoT: Cadena de Pensamientos Basada en Habilidades para el Razonamiento Adaptativo de Dominio en Videos

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

Resumen

Support