ChatPaper.aiChatPaper

Video-Thinker: Stimolare il "Pensare con i Video" tramite Apprendimento per Rinforzo

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

October 27, 2025
Autori: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI

Abstract

I recenti progressi nei metodi di ragionamento visivo, in particolare "Thinking with Images", hanno dimostrato notevoli successi nei Modelli Linguistici Multimodali di Grande Scala (MLLM); tuttavia, questo paradigma di ragionamento dinamico non è stato ancora esteso ai compiti di ragionamento video. In questo articolo, proponiamo Video-Thinker, che consente agli MLLM di ragionare con i video sfruttando autonomamente le loro intrinseche capacità di "grounding" e "captioning" per generare indizi di ragionamento durante il processo inferenziale. Per attivare questa capacità, abbiamo costruito Video-Thinker-10K, un dataset curato che presenta un utilizzo autonomo di strumenti all'interno di sequenze di ragionamento a catena di pensiero (chain-of-thought). La nostra strategia di addestramento inizia con la messa a punto supervisionata (SFT) per apprendere il formato di ragionamento, seguita dall'ottimizzazione delle politiche relative di gruppo (GRPO) per rafforzare questa capacità di ragionamento. Attraverso questo approccio, Video-Thinker consente agli MLLM di navigare autonomamente tra compiti di grounding e captioning per il ragionamento video, eliminando la necessità di costruire e richiamare strumenti esterni. Esperimenti estensivi dimostrano che Video-Thinker raggiunge miglioramenti significativi delle prestazioni sia su compiti in-dominio che su benchmark di ragionamento video out-of-domain impegnativi, tra cui Video-Holmes, CG-Bench-Reasoning e VRBench. Il nostro modello Video-Thinker-7B supera sostanzialmente i baseline esistenti come Video-R1 e stabilisce prestazioni all'avanguardia tra gli MLLM di dimensione 7B.
English
Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
PDF831December 2, 2025