VideoAuto-R1: 비디오 자동 추론을 위한 한 번 생각하고 두 번 답하기
VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice
January 8, 2026
저자: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI
초록
체인 오브 쏘트(CoT) 추론은 비디오 이해 작업에서 멀티모달 대규모 언어 모델의 강력한 도구로 부상했습니다. 그러나 직접 응답 방식 대비 CoT의 필요성과 장점은 아직 충분히 연구되지 않았습니다. 본 논문에서는 먼저 강화학습으로 훈련된 비디오 모델의 경우, CoT가 단계별 분석을 통해 더 높은 계산 비용을 소모함에도 불구하고 직접 응답 방식이 CoT 성능을 종종 따라가거나 오히려 능가함을 보여줍니다. 이에 착안하여, 우리는 필요할 때만 추론을 수행하는 '이유-필요-시-추론' 전략을 채택한 비디오 이해 프레임워크인 VideoAuto-R1을 제안합니다. 훈련 과정에서 우리의 접근 방식은 '한 번 생각하고, 두 번 답한다'는 패러다임을 따릅니다: 모델은 먼저 초기 답변을 생성한 후 추론을 수행하고, 최종적으로 검토된 답변을 출력합니다. 두 답변 모두 검증 가능한 보상을 통해 지도 학습됩니다. 추론 시에는 모델이 초기 답변의 신뢰도 점수를 사용하여 추론을 계속할지 여부를 결정합니다. 비디오 질의응답 및 기준 설정 벤치마크에서 VideoAuto-R1은 최첨단 정확도를 달성하면서도 평균 응답 길이를 약 3.3배(예: 149토큰에서 44토큰으로) 크게 줄여 효율성을显著히 향상시켰습니다. 더불어, 지각 지향 작업에서는 추론 모드 활성화 비율이 낮은 반면, 추론 집중 작업에서는 더 높은 비율을 관찰했습니다. 이는 명시적 언어 기반 추론이 일반적으로 유용하지만 항상 필요한 것은 아님을 시사합니다.
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.