VideoAuto-R1: Raciocínio Automático em Vídeo através do Pensar Uma Vez, Responder Duas Vezes

Resumo

A razão em cadeia de pensamento (CoT) emergiu como uma ferramenta poderosa para modelos de linguagem grandes multimodais em tarefas de compreensão de vídeo. No entanto, sua necessidade e vantagens sobre respostas diretas permanecem pouco exploradas. Neste artigo, primeiro demonstramos que, para modelos de vídeo treinados com RL, a resposta direta frequentemente iguala ou até supera o desempenho do CoT, apesar do CoT produzir análises passo a passo com um custo computacional maior. Motivados por isso, propomos o VideoAuto-R1, uma estrutura de compreensão de vídeo que adota uma estratégia de raciocinar-quando-necessário. Durante o treinamento, nossa abordagem segue um paradigma de Pensar Uma Vez, Responder Duas Vezes: o modelo primeiro gera uma resposta inicial, depois executa o raciocínio e, finalmente, produz uma resposta revisada. Ambas as respostas são supervisionadas por meio de recompensas verificáveis. Durante a inferência, o modelo usa a pontuação de confiança da resposta inicial para decidir se prossegue com o raciocínio. Em benchmarks de Q&A e de enquadramento de vídeo, o VideoAuto-R1 alcança precisão de última geração com eficiência significativamente melhorada, reduzindo o comprimento médio da resposta em ~3,3x, por exemplo, de 149 para apenas 44 tokens. Além disso, observamos uma baixa taxa de ativação do modo de pensamento em tarefas orientadas à percepção, mas uma taxa mais alta em tarefas intensivas em raciocínio. Isso sugere que o raciocínio linguístico explícito é geralmente benéfico, mas nem sempre necessário.

English

Chain-of-thought (CoT) reasoning has emerged as a powerful tool for multimodal large language models on video understanding tasks. However, its necessity and advantages over direct answering remain underexplored. In this paper, we first demonstrate that for RL-trained video models, direct answering often matches or even surpasses CoT performance, despite CoT producing step-by-step analyses at a higher computational cost. Motivated by this, we propose VideoAuto-R1, a video understanding framework that adopts a reason-when-necessary strategy. During training, our approach follows a Thinking Once, Answering Twice paradigm: the model first generates an initial answer, then performs reasoning, and finally outputs a reviewed answer. Both answers are supervised via verifiable rewards. During inference, the model uses the confidence score of the initial answer to determine whether to proceed with reasoning. Across video QA and grounding benchmarks, VideoAuto-R1 achieves state-of-the-art accuracy with significantly improved efficiency, reducing the average response length by ~3.3x, e.g., from 149 to just 44 tokens. Moreover, we observe a low rate of thinking-mode activation on perception-oriented tasks, but a higher rate on reasoning-intensive tasks. This suggests that explicit language-based reasoning is generally beneficial but not always necessary.

VideoAuto-R1: Raciocínio Automático em Vídeo através do Pensar Uma Vez, Responder Duas Vezes

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Resumo

Support