VideoAuto-R1: Ragionamento Automatico su Video tramite Pensare una Volta, Rispondere due Volte

Abstract

Il ragionamento a catena di pensieri (CoT) è emerso come uno strumento potente per i modelli linguistici multimodali di grandi dimensioni nei compiti di comprensione video. Tuttavia, la sua necessità e i suoi vantaggi rispetto alle risposte dirette rimangono poco esplorati. In questo articolo, dimostriamo innanzitutto che per i modelli video addestrati con RL, la risposta diretta spesso eguaglia o addirittura supera le prestazioni del CoT, nonostante il CoT produca analisi passo-passo a un costo computazionale più elevato. Motivati da ciò, proponiamo VideoAuto-R1, un framework per la comprensione video che adotta una strategia di ragionamento-quando-necessario. Durante l'addestramento, il nostro approccio segue un paradigma "Pensare Una Volta, Rispondere Due Volte": il modello genera prima una risposta iniziale, poi esegue un ragionamento e infine produce una risposta rivista. Entrambe le risposte sono supervisionate tramite ricompense verificabili. Durante l'inferenza, il modello utilizza il punteggio di confidenza della risposta iniziale per determinare se procedere con il ragionamento. Su benchmark di video QA e grounding, VideoAuto-R1 raggiunge un'accuratezza allo stato dell'arte con un'efficienza significativamente migliorata, riducendo la lunghezza media della risposta di circa 3,3 volte, ad esempio da 149 a soli 44 token. Inoltre, osserviamo un basso tasso di attivazione della modalità di pensiero su compiti orientati alla percezione, ma un tasso più elevato su compiti ad alta intensità di ragionamento. Ciò suggerisce che il ragionamento esplicito basato sul linguaggio sia generalmente benefico ma non sempre necessario.

English

Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.

VideoAuto-R1: Ragionamento Automatico su Video tramite Pensare una Volta, Rispondere due Volte

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Abstract

Support