Video-RTS: Repensando o Aprendizado por Reforço e a Escalonamento em Tempo de Teste para Raciocínio em Vídeo Eficiente e Aprimorado
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
Autores: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
Resumo
Apesar dos avanços no raciocínio em vídeo baseado em aprendizado por reforço (RL) com modelos de linguagem de grande escala (LLMs), a coleta de dados e o ajuste fino continuam sendo desafios significativos. Esses métodos frequentemente dependem de ajuste fino supervisionado (SFT) em larga escala com extensos dados de vídeo e longas anotações de Cadeia de Pensamento (CoT), tornando-os caros e difíceis de escalar. Para resolver isso, apresentamos o Video-RTS, uma nova abordagem para melhorar a capacidade de raciocínio em vídeo com uma eficiência de dados drasticamente aprimorada, combinando RL eficiente em dados com uma estratégia de escalonamento adaptativo em tempo de teste (TTS) para vídeos. Com base em observações sobre o escalonamento de dados de amostras de RL, pulamos a etapa de SFT intensiva em recursos e empregamos treinamento puro de RL com recompensas baseadas em saída, sem a necessidade de anotações adicionais ou ajuste fino extensivo. Além disso, para utilizar os recursos computacionais de forma mais eficiente, introduzimos uma estratégia de TTS de vídeo esparsa para densa que melhora a inferência ao adicionar iterativamente quadros com base na consistência da saída. Validamos nossa abordagem em vários benchmarks de raciocínio em vídeo, mostrando que o Video-RTS supera os modelos existentes de raciocínio em vídeo em uma média de 2,4% em precisão, utilizando apenas 3,6% das amostras de treinamento. Por exemplo, o Video-RTS alcança uma melhoria de 4,2% no Video-Holmes, um benchmark recente e desafiador de raciocínio em vídeo, e uma melhoria de 2,6% no MMVU. Notavelmente, nosso treinamento puro de RL e o TTS adaptativo para vídeo oferecem pontos fortes complementares, permitindo o forte desempenho de raciocínio do Video-RTS.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.