ChatPaper.aiChatPaper

VideoAuto-R1: Автоматическое видеорассуждение через однократное мышление и двойной ответ

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

January 8, 2026
Авторы: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI

Аннотация

Цепочка рассуждений (CoT) стала мощным инструментом для мультимодальных больших языковых моделей в задачах понимания видео. Однако её необходимость и преимущества перед прямым ответом остаются недостаточно изученными. В данной статье мы сначала показываем, что для моделей, обученных с подкреплением, прямой ответ часто соответствует или даже превосходит по эффективности CoT, несмотря на то, что CoT производит пошаговый анализ с более высокими вычислительными затратами. Руководствуясь этим, мы предлагаем VideoAuto-R1 — фреймворк для понимания видео, который использует стратегию рассуждений по необходимости. В процессе обучения наш подход следует парадигме «Подумать один раз, ответить дважды»: модель сначала генерирует первоначальный ответ, затем проводит рассуждения и, наконец, выдает проверенный ответ. Оба ответа контролируются с помощью верифицируемых вознаграждений. На этапе вывода модель использует оценку уверенности в первоначальном ответе, чтобы определить, нужно ли проводить рассуждения. На бенчмарках для вопросно-ответных задач и локализации в видео VideoAuto-R1 достигает наивысшей точности при значительном повышении эффективности, сокращая среднюю длину ответа примерно в 3,3 раза (например, с 149 до всего 44 токенов). Более того, мы наблюдаем низкую частоту активации режима рассуждений на задачах, ориентированных на восприятие, но более высокую — на задачах, требующих интенсивных рассуждений. Это позволяет предположить, что явные языковые рассуждения в целом полезны, но не всегда необходимы.
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.
PDF150January 10, 2026