ChatPaper.aiChatPaper

VideoAuto-R1: Automatisches Videoverstehen durch einmaliges Denken, zweimaliges Antworten

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

January 8, 2026
papers.authors: Shuming Liu, Mingchen Zhuge, Changsheng Zhao, Jun Chen, Lemeng Wu, Zechun Liu, Chenchen Zhu, Zhipeng Cai, Chong Zhou, Haozhe Liu, Ernie Chang, Saksham Suri, Hongyu Xu, Qi Qian, Wei Wen, Balakrishnan Varadarajan, Zhuang Liu, Hu Xu, Florian Bordes, Raghuraman Krishnamoorthi, Bernard Ghanem, Vikas Chandra, Yunyang Xiong
cs.AI

papers.abstract

Chain-of-Thought (CoT)-Reasoning hat sich als leistungsstarkes Werkzeug für multimodale große Sprachmodelle bei Video-Verständnisaufgaben erwiesen. Dessen Notwendigkeit und Vorteile gegenüber dem direkten Beantworten sind jedoch noch unzureichend erforscht. In dieser Arbeit zeigen wir zunächst, dass bei RL-trainierten Videomodellen das direkte Beantworten oft mit der CoT-Leistung gleichzieht oder diese sogar übertrifft, obwohl CoT schrittweise Analysen mit höheren Rechenkosten produziert. Motiviert durch diese Erkenntnis schlagen wir VideoAuto-R1 vor, ein Video-Verständnis-Framework, das eine „Reason-when-necessary“-Strategie verfolgt. Während des Trainings folgt unser Ansatz einem „Thinking Once, Answering Twice“-Paradigma: Das Modell generiert zuerst eine initiale Antwort, führt dann eine Reasoning-Phase durch und gibt schließlich eine überprüfte Antwort aus. Beide Antworten werden über verifizierbare Belohnungen supervidiert. Während der Inferenz verwendet das Modell den Konfidenzwert der initialen Antwort, um zu entscheiden, ob mit dem Reasoning fortgefahren werden soll. In Video-QA- und Grounding-Benchmarks erreicht VideoAuto-R1 state-of-the-art Genauigkeit bei deutlich verbesserter Effizienz, indem die durchschnittliche Antwortlänge um ~3,3x reduziert wird, z.B. von 149 auf nur 44 Tokens. Darüber hinaus beobachten wir eine niedrige Aktivierungsrate des Denkmodus bei wahrnehmungsorientierten Aufgaben, jedoch eine höhere Rate bei reasoning-intensiven Aufgaben. Dies deutet darauf hin, dass explizites sprachbasiertes Reasoning generell vorteilhaft, aber nicht immer notwendig ist.
English
Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.
PDF150January 10, 2026