ChatPaper.aiChatPaper

Video-Thinker: Стимулирование «мышления с помощью видео» посредством обучения с подкреплением

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

October 27, 2025
Авторы: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI

Аннотация

Последние достижения в методах визуального рассуждения, в частности подход «рассуждения с помощью изображений» (Thinking with Images), продемонстрировали впечатляющие успехи в мультимодальных больших языковых моделях (MLLM); однако данная динамическая парадигма рассуждений до сих пор не была распространена на задачи видеоанализа. В данной статье мы представляем Video-Thinker — метод, позволяющий MLLM рассуждать с помощью видео путем автономного использования их внутренних возможностей «привязки к объектам» (grounding) и «генерации описаний» (captioning) для создания логических цепочек в процессе вывода. Для активации этой способности мы создали Video-Thinker-10K — специально отобранный набор данных, демонстрирующий автономное использование инструментов в рамках последовательностей рассуждений по цепочке (chain-of-thought). Наша стратегия обучения начинается с контролируемого тонкого настроения (SFT) для усвоения формата рассуждений, после чего применяется оптимизация групповой относительной политики (GRPO) для усиления этой способности. Данный подход позволяет Video-Thinker автономно выполнять задачи привязки и описания для видеоанализа, исключая необходимость создания и вызова внешних инструментов. Многочисленные эксперименты показывают, что Video-Thinker обеспечивает значительный прирост производительности как на внутридоменных задачах, так и на сложных междоменных эталонах видеоанализа, включая Video-Holmes, CG-Bench-Reasoning и VRBench. Наша модель Video-Thinker-7B существенно превосходит существующие базовые методы, такие как Video-R1, и устанавливает рекордные показатели среди MLLM размером 7 миллиардов параметров.
English
Recent advances in image reasoning methods, particularly "Thinking with Images", have demonstrated remarkable success in Multimodal Large Language Models (MLLMs); however, this dynamic reasoning paradigm has not yet been extended to video reasoning tasks. In this paper, we propose Video-Thinker, which empowers MLLMs to think with videos by autonomously leveraging their intrinsic "grounding" and "captioning" capabilities to generate reasoning clues throughout the inference process. To spark this capability, we construct Video-Thinker-10K, a curated dataset featuring autonomous tool usage within chain-of-thought reasoning sequences. Our training strategy begins with Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group Relative Policy Optimization (GRPO) to strengthen this reasoning capability. Through this approach, Video-Thinker enables MLLMs to autonomously navigate grounding and captioning tasks for video reasoning, eliminating the need for constructing and calling external tools. Extensive experiments demonstrate that Video-Thinker achieves significant performance gains on both in-domain tasks and challenging out-of-domain video reasoning benchmarks, including Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B substantially outperforms existing baselines such as Video-R1 and establishes state-of-the-art performance among 7B-sized MLLMs.
PDF831December 2, 2025