ChatPaper.aiChatPaper

VideoAuto-R1: Razonamiento Automático en Video mediante Pensar Una Vez, Responder Dos Veces

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

January 8, 2026
Autores: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI

Resumen

El razonamiento de cadena de pensamiento (CoT) ha surgido como una herramienta poderosa para los modelos de lenguaje grandes multimodales en tareas de comprensión de videos. Sin embargo, su necesidad y ventajas sobre la respuesta directa siguen siendo poco exploradas. En este artículo, primero demostramos que para los modelos de video entrenados con aprendizaje por refuerzo, la respuesta directa a menudo iguala o incluso supera el rendimiento de CoT, a pesar de que CoT produce análisis paso a paso con un costo computacional mayor. Motivados por esto, proponemos VideoAuto-R1, un marco de comprensión de videos que adopta una estrategia de razonar-cuando-sea-necesario. Durante el entrenamiento, nuestro enfoque sigue un paradigma de Pensar Una Vez, Responder Dos Veces: el modelo genera primero una respuesta inicial, luego realiza el razonamiento y finalmente produce una respuesta revisada. Ambas respuestas se supervisan mediante recompensas verificables. Durante la inferencia, el modelo utiliza la puntuación de confianza de la respuesta inicial para determinar si proceder con el razonamiento. En diversos puntos de referencia de QA y grounding de videos, VideoAuto-R1 logra una precisión de vanguardia con una eficiencia significativamente mejorada, reduciendo la longitud promedio de respuesta en ~3.3x, por ejemplo, de 149 a solo 44 tokens. Además, observamos una baja tasa de activación del modo de pensamiento en tareas orientadas a la percepción, pero una tasa más alta en tareas intensivas en razonamiento. Esto sugiere que el razonamiento explícito basado en lenguaje es generalmente beneficioso pero no siempre necesario.
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.
PDF150January 10, 2026