Video-Thinker: Provocando el "Pensar con Videos" mediante Aprendizaje por Refuerzo
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
October 27, 2025
Autores: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI
Resumen
Los recientes avances en métodos de razonamiento visual, particularmente el paradigma "Pensar con Imágenes", han demostrado un éxito notable en los Modelos de Lenguaje Grandes Multimodales (MLLMs); sin embargo, este paradigma de razonamiento dinámico aún no se ha extendido a las tareas de razonamiento con vídeos. En este artículo, proponemos Video-Thinker, que dota a los MLLMs de la capacidad de pensar con vídeos aprovechando de forma autónoma sus capacidades intrínsecas de "grounding" (anclaje) y "captioning" (generación de descripciones) para generar pistas de razonamiento durante todo el proceso de inferencia. Para despertar esta capacidad, construimos Video-Thinker-10K, un conjunto de datos curado que presenta el uso autónomo de herramientas dentro de secuencias de razonamiento de cadena de pensamiento (chain-of-thought). Nuestra estrategia de entrenamiento comienza con un Fine-Tuning Supervisado (SFT) para aprender el formato de razonamiento, seguido de una Optimización de Políticas Relativas por Grupos (GRPO) para reforzar esta capacidad de razonamiento. A través de este enfoque, Video-Thinker permite a los MLLMs navegar autónomamente las tareas de grounding y captioning para el razonamiento con vídeos, eliminando la necesidad de construir y llamar a herramientas externas. Experimentos exhaustivos demuestran que Video-Thinker logra mejoras significativas de rendimiento tanto en tareas dentro del dominio como en benchmarks desafiantes de razonamiento con vídeos fuera del dominio, incluyendo Video-Holmes, CG-Bench-Reasoning y VRBench. Nuestro modelo Video-Thinker-7B supera sustancialmente a las bases de referencia existentes, como Video-R1, y establece un rendimiento de vanguardia entre los MLLMs de 7B de parámetros.
English
Recent advances in image reasoning methods, particularly "Thinking with
Images", have demonstrated remarkable success in Multimodal Large Language
Models (MLLMs); however, this dynamic reasoning paradigm has not yet been
extended to video reasoning tasks. In this paper, we propose Video-Thinker,
which empowers MLLMs to think with videos by autonomously leveraging their
intrinsic "grounding" and "captioning" capabilities to generate reasoning clues
throughout the inference process. To spark this capability, we construct
Video-Thinker-10K, a curated dataset featuring autonomous tool usage within
chain-of-thought reasoning sequences. Our training strategy begins with
Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group
Relative Policy Optimization (GRPO) to strengthen this reasoning capability.
Through this approach, Video-Thinker enables MLLMs to autonomously navigate
grounding and captioning tasks for video reasoning, eliminating the need for
constructing and calling external tools. Extensive experiments demonstrate that
Video-Thinker achieves significant performance gains on both in-domain tasks
and challenging out-of-domain video reasoning benchmarks, including
Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B
substantially outperforms existing baselines such as Video-R1 and establishes
state-of-the-art performance among 7B-sized MLLMs.