Video-Thinker: Estimulando o "Pensar com Vídeos" por meio de Aprendizado por Reforço
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
October 27, 2025
Autores: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI
Resumo
Os recentes avanços nos métodos de raciocínio visual, particularmente o "Pensar com Imagens", demonstraram sucesso notável em Modelos de Linguagem Multimodais de Grande Escala (MLLMs); contudo, este paradigma de raciocínio dinâmico ainda não foi estendido para tarefas de raciocínio em vídeo. Neste artigo, propomos o Video-Thinker, que capacita MLLMs a pensar com vídeos através do aproveitamento autônomo de suas capacidades intrínsecas de "grounding" e "captioning" para gerar pistas de raciocínio durante todo o processo inferencial. Para despertar essa capacidade, construímos o Video-Thinker-10K, um conjunto de dados curado que apresenta uso autônomo de ferramentas dentro de sequências de raciocínio em cadeia. Nossa estratégia de treinamento inicia com Ajuste Fino Supervisionado (SFT) para aprender o formato de raciocínio, seguido por Otimização de Política Relativa em Grupo (GRPO) para fortalecer essa capacidade. Através desta abordagem, o Video-Thinker permite que MLLMs naveguem autonomamente por tarefas de grounding e captioning para raciocínio em vídeo, eliminando a necessidade de construir e chamar ferramentas externas. Experimentos extensivos demonstram que o Video-Thinker alcança ganhos significativos de desempenho tanto em tarefas de domínio interno quanto em benchmarks desafiadores de raciocínio em vídeo de domínio externo, incluindo Video-Holmes, CG-Bench-Reasoning e VRBench. Nosso Video-Thinker-7B supera substancialmente as linhas de base existentes como Video-R1 e estabelece desempenho state-of-the-art entre MLLMs de 7B de parâmetros.
English
Recent advances in image reasoning methods, particularly "Thinking with
Images", have demonstrated remarkable success in Multimodal Large Language
Models (MLLMs); however, this dynamic reasoning paradigm has not yet been
extended to video reasoning tasks. In this paper, we propose Video-Thinker,
which empowers MLLMs to think with videos by autonomously leveraging their
intrinsic "grounding" and "captioning" capabilities to generate reasoning clues
throughout the inference process. To spark this capability, we construct
Video-Thinker-10K, a curated dataset featuring autonomous tool usage within
chain-of-thought reasoning sequences. Our training strategy begins with
Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group
Relative Policy Optimization (GRPO) to strengthen this reasoning capability.
Through this approach, Video-Thinker enables MLLMs to autonomously navigate
grounding and captioning tasks for video reasoning, eliminating the need for
constructing and calling external tools. Extensive experiments demonstrate that
Video-Thinker achieves significant performance gains on both in-domain tasks
and challenging out-of-domain video reasoning benchmarks, including
Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B
substantially outperforms existing baselines such as Video-R1 and establishes
state-of-the-art performance among 7B-sized MLLMs.