Video-Thinker:強化学習による「映像を用いた思考」の創発
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
October 27, 2025
著者: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI
要旨
近年、画像推論手法の進歩、特に「イメージを用いた思考(Thinking with Images)」はマルチモーダル大規模言語モデル(MLLM)において顕著な成功を収めてきた。しかし、この動的推論パラダイムは映像推論タスクには未だ拡張されていない。本論文では、Video-Thinkerを提案する。これは推論プロセス全体において、モデルが内在的な「グラウンディング」能力と「キャプション生成」能力を自律的に活用して推論の手がかりを生成し、MLLMに映像を用いた思考を可能とするものである。この能力を喚起するため、思考の連鎖推論シーケンス内での自律的なツール利用を特徴とする精選データセットVideo-Thinker-10Kを構築した。学習戦略としては、まず教師ありファインチューニング(SFT)により推論形式を学習し、その後Group Relative Policy Optimization(GRPO)を用いて推論能力を強化する。このアプローチにより、Video-Thinkerは外部ツールの構築や呼び出しを必要とせず、MLLMが映像推論のためのグラウンディングとキャプション生成タスクを自律的に遂行できるようになる。大規模な実験により、Video-Thinkerがドメイン内タスクおよびVideo-Holmes、CG-Bench-Reasoning、VRBenchといった挑戦的なドメイン外映像推論ベンチマークの両方で顕著な性能向上を達成することが実証された。我々のVideo-Thinker-7Bは、Video-R1などの既存ベースラインを大幅に上回り、7B規模のMLLMにおいて最先端の性能を確立している。
English
Recent advances in image reasoning methods, particularly "Thinking with
Images", have demonstrated remarkable success in Multimodal Large Language
Models (MLLMs); however, this dynamic reasoning paradigm has not yet been
extended to video reasoning tasks. In this paper, we propose Video-Thinker,
which empowers MLLMs to think with videos by autonomously leveraging their
intrinsic "grounding" and "captioning" capabilities to generate reasoning clues
throughout the inference process. To spark this capability, we construct
Video-Thinker-10K, a curated dataset featuring autonomous tool usage within
chain-of-thought reasoning sequences. Our training strategy begins with
Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group
Relative Policy Optimization (GRPO) to strengthen this reasoning capability.
Through this approach, Video-Thinker enables MLLMs to autonomously navigate
grounding and captioning tasks for video reasoning, eliminating the need for
constructing and calling external tools. Extensive experiments demonstrate that
Video-Thinker achieves significant performance gains on both in-domain tasks
and challenging out-of-domain video reasoning benchmarks, including
Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B
substantially outperforms existing baselines such as Video-R1 and establishes
state-of-the-art performance among 7B-sized MLLMs.