Vidéo-Penseur : Susciter la « pensée par la vidéo » via l'apprentissage par renforcement
Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning
October 27, 2025
papers.authors: Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, Xuelian Cheng
cs.AI
papers.abstract
Les récentes avancées en méthodes de raisonnement visuel, particulièrement le paradigme "Penser avec les Images", ont démontré des succès remarquables dans les Modèles de Langue Multimodaux (MLLMs) ; cependant, ce paradigme de raisonnement dynamique n'a pas encore été étendu aux tâches de raisonnement vidéo. Dans cet article, nous proposons Video-Thinker, qui permet aux MLLMs de raisonner avec des vidéos en exploitant de manière autonome leurs capacités intrinsèques d'"ancrage" et de "description" pour générer des indices de raisonnement tout au long du processus d'inférence. Pour stimuler cette capacité, nous construisons Video-Thinker-10K, un jeu de données organisé mettant en œuvre l'utilisation autonome d'outils au sein de séquences de raisonnement en chaîne de pensée. Notre stratégie d'entraînement commence par un Réglage Fin Supervisé (SFT) pour apprendre le format de raisonnement, suivi par une Optimisation de Politique Relative par Groupe (GRPO) pour renforcer cette capacité de raisonnement. Grâce à cette approche, Video-Thinker permet aux MLLMs de naviguer de manière autonome entre les tâches d'ancrage et de description pour le raisonnement vidéo, éliminant le besoin de construire et d'invoquer des outils externes. Des expérimentations approfondies démontrent que Video-Thinker obtient des gains de performance significatifs sur les tâches en domaine contrôlé et sur des benchmarks exigeants de raisonnement vidéo hors domaine, incluant Video-Holmes, CG-Bench-Reasoning et VRBench. Notre modèle Video-Thinker-7B surpasse substantiellement les méthodes de référence existantes comme Video-R1 et établit l'état de l'art parmi les MLLMs de taille 7B.
English
Recent advances in image reasoning methods, particularly "Thinking with
Images", have demonstrated remarkable success in Multimodal Large Language
Models (MLLMs); however, this dynamic reasoning paradigm has not yet been
extended to video reasoning tasks. In this paper, we propose Video-Thinker,
which empowers MLLMs to think with videos by autonomously leveraging their
intrinsic "grounding" and "captioning" capabilities to generate reasoning clues
throughout the inference process. To spark this capability, we construct
Video-Thinker-10K, a curated dataset featuring autonomous tool usage within
chain-of-thought reasoning sequences. Our training strategy begins with
Supervised Fine-Tuning (SFT) to learn the reasoning format, followed by Group
Relative Policy Optimization (GRPO) to strengthen this reasoning capability.
Through this approach, Video-Thinker enables MLLMs to autonomously navigate
grounding and captioning tasks for video reasoning, eliminating the need for
constructing and calling external tools. Extensive experiments demonstrate that
Video-Thinker achieves significant performance gains on both in-domain tasks
and challenging out-of-domain video reasoning benchmarks, including
Video-Holmes, CG-Bench-Reasoning, and VRBench. Our Video-Thinker-7B
substantially outperforms existing baselines such as Video-R1 and establishes
state-of-the-art performance among 7B-sized MLLMs.