VideoAuto-R1: Video Automatisch Redeneren door Eén Keer te Denken, Twee Keer te Antwoorden

Samenvatting

Chain-of-thought (CoT) redeneren is naar voren gekomen als een krachtig hulpmiddel voor multimodale grote-taalmodellen bij videobegriptaken. De noodzaak en voordelen ervan ten opzichte van direct antwoorden zijn echter nog onvoldoende onderzocht. In dit artikel tonen we eerst aan dat voor met RL getrainde videomodellen direct antwoorden vaak even goed of zelfs beter presteert dan CoT, ondanks dat CoT stapsgewijze analyses produceert tegen hogere computationele kosten. Gemotiveerd door deze bevinding stellen we VideoAuto-R1 voor, een videobegripkader dat een 'redeneer-wanneer-nodig'-strategie hanteert. Tijdens de training volgt onze aanpak een 'Eens Denken, Tweemaal Antwoorden'-paradigma: het model genereert eerst een initieel antwoord, voert vervolgens redenering uit en produceert ten slotte een herzien antwoord. Beide antwoorden worden gesuperviseerd via verifieerbare beloningen. Tijdens inferentie gebruikt het model de betrouwbaarheidsscore van het initiële antwoord om te bepalen of moet worden overgegaan tot redenering. Op videovraag-antwoord- en groundingbenchmarks behaalt VideoAuto-R1 state-of-the-art nauwkeurigheid met aanzienlijk verbeterde efficiëntie, waarbij de gemiddelde responslengte met ~3,3x wordt verminderd, bijvoorbeeld van 149 naar slechts 44 tokens. Bovendien observeren we een lage activeringsfrequentie van de denkmodus bij perceptiegerichte taken, maar een hogere frequentie bij reasoning-intensieve taken. Dit suggereert dat expliciete op taal gebaseerde redenering over het algemeen nuttig is, maar niet altijd nodig.

English

Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.

VideoAuto-R1: Video Automatisch Redeneren door Eén Keer te Denken, Twee Keer te Antwoorden

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Samenvatting

Support