ChatPaper.aiChatPaper

Video-Thinker: Förderung des „Denkens mit Videos“ durch Reinforcement Learning

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

October 27, 2025
papers.authors: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI

papers.abstract

Jüngste Fortschritte bei Bildverarbeitungsmethoden, insbesondere "Thinking with Images", haben bemerkenswerte Erfolge bei multimodalen großen Sprachmodellen (MLLMs) gezeigt; dieses dynamische Reasoning-Paradigma wurde jedoch noch nicht auf Video-Verarbeitungsaufgaben ausgeweitet. In diesem Artikel stellen wir Video-Thinker vor, das MLLMs befähigt, mit Videos zu "denken", indem es deren intrinsische "Grounding"- und "Captioning"-Fähigkeiten autonom nutzt, um während des Inferenzprozesses Reasoning-Hinweise zu generieren. Um diese Fähigkeit zu aktivieren, haben wir Video-Thinker-10K erstellt, einen kuratierten Datensatz mit autonomer Werkzeugnutzung in Chain-of-Thought-Reasoning-Sequenzen. Unsere Trainingsstrategie beginnt mit supervised Fine-Tuning (SFT) zum Erlernen des Reasoning-Formats, gefolgt von Group Relative Policy Optimization (GRPO) zur Stärkung dieser Reasoning-Fähigkeit. Durch diesen Ansatz ermöglicht Video-Thinker MLLMs, Grounding- und Captioning-Aufgaben für Video-Reasoning autonom zu bewältigen, ohne externe Werkzeuge konstruieren oder aufrufen zu müssen. Umfangreiche Experimente zeigen, dass Video-Thinker signifikante Leistungssteigerungen sowohl bei in-domain Aufgaben als auch bei anspruchsvollen out-of-domain Video-Reasoning-Benchmarks erzielt, darunter Video-Holmes, CG-Bench-Reasoning und VRBench. Unser Video-Thinker-7B übertrifft bestehende Baselines wie Video-R1 deutlich und erreicht state-of-the-art Leistung unter 7B-großen MLLMs.
English
Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
PDF831December 2, 2025