VidéoAuto-R1 : Raisonnement Automatique sur Vidéo par Pensée Unique, Réponse Double
VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
January 8, 2026
papers.authors: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI
papers.abstract
Le raisonnement en chaîne de pensée (CoT) s'est imposé comme un outil puissant pour les modèles de langage multimodaux dans les tâches de compréhension vidéo. Cependant, sa nécessité et ses avantages par rapport aux réponses directes restent peu explorés. Dans cet article, nous démontrons d'abord que pour les modèles vidéo entraînés par apprentissage par renforcement, la réponse directe égale ou dépasse souvent les performances du CoT, bien que le CoT produise des analyses étape par étape à un coût computationnel plus élevé. Motivés par ce constat, nous proposons VideoAuto-R1, un cadre de compréhension vidéo adoptant une stratégie de raisonnement conditionnel. Durant l'entraînement, notre approche suit un paradigme « Penser une fois, Répondre deux fois » : le modèle génère d'abord une réponse initiale, puis effectue un raisonnement, et enfin produit une réponse révisée. Les deux réponses sont supervisées via des récompenses vérifiables. Lors de l'inférence, le modèle utilise le score de confiance de la réponse initiale pour décider s'il doit poursuivre le raisonnement. Sur des benchmarks de question-réponse vidéo et de localisation, VideoAuto-R1 atteint une précision de pointe avec une efficacité significativement améliorée, réduisant la longueur moyenne des réponses d'environ 3,3 fois (par exemple, de 149 à seulement 44 tokens). De plus, nous observons un faible taux d'activation du mode raisonnement sur les tâches orientées perception, mais un taux plus élevé sur les tâches nécessitant un raisonnement approfondi. Cela suggère que le raisonnement explicite basé sur le langage est généralement bénéfique mais pas toujours nécessaire.
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.