ChatPaper.aiChatPaper

Video-Thinker: Estimulando o "Pensar com Vídeos" por meio de Aprendizado por Reforço

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

October 27, 2025
Autores: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI

Resumo

Os recentes avanços nos métodos de raciocínio visual, particularmente o "Pensar com Imagens", demonstraram sucesso notável em Modelos de Linguagem Multimodais de Grande Escala (MLLMs); contudo, este paradigma de raciocínio dinâmico ainda não foi estendido para tarefas de raciocínio em vídeo. Neste artigo, propomos o Video-Thinker, que capacita MLLMs a pensar com vídeos através do aproveitamento autônomo de suas capacidades intrínsecas de "grounding" e "captioning" para gerar pistas de raciocínio durante todo o processo inferencial. Para despertar essa capacidade, construímos o Video-Thinker-10K, um conjunto de dados curado que apresenta uso autônomo de ferramentas dentro de sequências de raciocínio em cadeia. Nossa estratégia de treinamento inicia com Ajuste Fino Supervisionado (SFT) para aprender o formato de raciocínio, seguido por Otimização de Política Relativa em Grupo (GRPO) para fortalecer essa capacidade. Através desta abordagem, o Video-Thinker permite que MLLMs naveguem autonomamente por tarefas de grounding e captioning para raciocínio em vídeo, eliminando a necessidade de construir e chamar ferramentas externas. Experimentos extensivos demonstram que o Video-Thinker alcança ganhos significativos de desempenho tanto em tarefas de domínio interno quanto em benchmarks desafiadores de raciocínio em vídeo de domínio externo, incluindo Video-Holmes, CG-Bench-Reasoning e VRBench. Nosso Video-Thinker-7B supera substancialmente as linhas de base existentes como Video-R1 e estabelece desempenho state-of-the-art entre MLLMs de 7B de parâmetros.
English
Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
PDF851February 7, 2026