VideoAuto-R1: ワンシンキング・ツーアンサリングによる動画自動推論
VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
January 8, 2026
著者: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI
要旨
思考連鎖(CoT)推論は、映像理解タスクにおけるマルチモーダル大規模言語モデルの強力なツールとして登場した。しかし、その必要性や直接回答に対する利点は未だ十分に検証されていない。本論文ではまず、強化学習で訓練された映像モデルにおいて、CoTが段階的な分析を高コストで生成するにも関わらず、直接回答がCoTの性能に匹敵あるいは凌駕する場合が多いことを実証する。この知見に基づき、必要時にのみ推論を行う「VideoAuto-R1」という映像理解フレームワークを提案する。訓練時には、モデルは「一度考え、二度答える」パラダイムに従う:最初に初期回答を生成し、次に推論を行い、最終的に検証済み回答を出力する。両回答は検証可能な報酬によって監督される。推論時には、モデルは初期回答の信頼度スコアに基づいて推論の実行要否を判断する。映像QAおよびグラウンディングベンチマークにおいて、VideoAuto-R1は平均応答長を約3.3倍(例:149トークンから44トークンへ)削減しつつ、最高精度を達成した。さらに、知覚指向タスクでは思考モードの起動率が低い一方、推論集約型タスクでは高い起動率を観測した。これは言語ベースの明示的推論が一般的に有益ではあるものの、常に必須ではないことを示唆している。
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.