ChatPaper.aiChatPaper

Video-Skill-CoT: Cadeia de Pensamentos Baseada em Habilidades para Raciocínio em Vídeo com Adaptação de Domínio

Video-Skill-CoT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning

June 4, 2025
Autores: Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal
cs.AI

Resumo

Avanços recentes no raciocínio em Cadeia de Pensamento (Chain-of-Thought, CoT) têm aprimorado a compreensão complexa de vídeos, mas os métodos existentes frequentemente enfrentam dificuldades para se adaptar a habilidades específicas de domínio (por exemplo, detecção de eventos, compreensão de relações espaciais, compreensão de emoções) em diversos conteúdos de vídeo. Para abordar isso, propomos o Video-Skill-CoT (também conhecido como Video-SKoT), um framework que constrói e utiliza automaticamente supervisões de CoT conscientes de habilidades para o raciocínio adaptativo em vídeos. Primeiro, construímos anotações de CoT baseadas em habilidades: extraímos habilidades de raciocínio relevantes ao domínio a partir de perguntas de treinamento, agrupamo-las em uma taxonomia de habilidades compartilhada e criamos uma racionalização detalhada de CoT em múltiplos passos, personalizada para cada par vídeo-pergunta, para treinamento. Segundo, introduzimos um framework de aprendizado especializado em habilidades. Cada módulo especializado foca em um subconjunto de habilidades de raciocínio e é treinado com adaptadores leves usando a supervisão de CoT coletada. Demonstramos a eficácia da abordagem proposta em três benchmarks de compreensão de vídeo, onde o Video-SKoT supera consistentemente as linhas de base fortes. Também fornecemos análises detalhadas comparando diferentes pipelines de anotação de CoT e habilidades aprendidas em múltiplos domínios de vídeo.
English
Recent advances in Chain-of-Thought (CoT) reasoning have improved complex video understanding, but existing methods often struggle to adapt to domain-specific skills (e.g., event detection, spatial relation understanding, emotion understanding) over various video content. To address this, we propose Video-Skill-CoT (a.k.a. Video-SKoT), a framework that automatically constructs and leverages skill-aware CoT supervisions for domain-adaptive video reasoning. First, we construct skill-based CoT annotations: we extract domain-relevant reasoning skills from training questions, cluster them into a shared skill taxonomy, and create detailed multi-step CoT rationale tailored to each video-question pair for training. Second, we introduce a skill-specific expert learning framework. Each expert module specializes in a subset of reasoning skills and is trained with lightweight adapters using the collected CoT supervision. We demonstrate the effectiveness of the proposed approach on three video understanding benchmarks, where Video-SKoT consistently outperforms strong baselines. We also provide in-depth analyses on comparing different CoT annotation pipelines and learned skills over multiple video domains.
PDF62June 5, 2025