ChatPaper.aiChatPaper

Video-Thinker: Het Oproepen van "Denken met Video's" via Reinforcement Learning

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

October 27, 2025
Auteurs: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI

Samenvatting

Recente vooruitgang in beeldredeneermethoden, met name "Denken met Beelden", heeft opmerkelijke successen geboekt bij Multimodale Grote Taalmodellen (MLLM's); dit dynamische redeneerparadigma is echter nog niet uitgebreid naar videoredeneertaken. In dit artikel stellen we Video-Thinker voor, dat MLLM's in staat stelt te denken met video's door autonoom gebruik te maken van hun intrinsieke "grounding"- en "captioning"-capaciteiten om tijdens het redeneerproces aanwijzingen te genereren. Om deze capaciteit te activeren, construeren we Video-Thinker-10K, een gecureerde dataset met autonoom toolgebruik binnen chain-of-thought-redeneersequenties. Onze trainingsstrategie start met Supervised Fine-Tuning (SFT) om het redeneerformaat aan te leren, gevolgd door Group Relative Policy Optimization (GRPO) om deze redeneercapaciteit te versterken. Via deze aanpak stelt Video-Thinker MLLM's in staat om autonoom grounding- en captioningtaken voor videoredenering uit te voeren, zonder dat externe tools hoeven te worden geconstrueerd of aangeroepen. Uitgebreide experimenten tonen aan dat Video-Thinker aanzienlijke prestatieverbeteringen bereikt op zowel in-domeintaken als uitdagende out-of-domain videoredeneerbenchmarks, waaronder Video-Holmes, CG-Bench-Reasoning en VRBench. Onze Video-Thinker-7B presteert aanzienlijk beter dan bestaande baseline-modellen zoals Video-R1 en vestigt state-of-the-art prestaties onder 7B-grote MLLM's.
English
Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
PDF831December 2, 2025