Video-RTS: Repensando o Aprendizado por Reforço e a Escalonamento em Tempo de Teste para Raciocínio em Vídeo Eficiente e Aprimorado

Resumo

Apesar dos avanços no raciocínio em vídeo baseado em aprendizado por reforço (RL) com modelos de linguagem de grande escala (LLMs), a coleta de dados e o ajuste fino continuam sendo desafios significativos. Esses métodos frequentemente dependem de ajuste fino supervisionado (SFT) em larga escala com extensos dados de vídeo e longas anotações de Cadeia de Pensamento (CoT), tornando-os caros e difíceis de escalar. Para resolver isso, apresentamos o Video-RTS, uma nova abordagem para melhorar a capacidade de raciocínio em vídeo com uma eficiência de dados drasticamente aprimorada, combinando RL eficiente em dados com uma estratégia de escalonamento adaptativo em tempo de teste (TTS) para vídeos. Com base em observações sobre o escalonamento de dados de amostras de RL, pulamos a etapa de SFT intensiva em recursos e empregamos treinamento puro de RL com recompensas baseadas em saída, sem a necessidade de anotações adicionais ou ajuste fino extensivo. Além disso, para utilizar os recursos computacionais de forma mais eficiente, introduzimos uma estratégia de TTS de vídeo esparsa para densa que melhora a inferência ao adicionar iterativamente quadros com base na consistência da saída. Validamos nossa abordagem em vários benchmarks de raciocínio em vídeo, mostrando que o Video-RTS supera os modelos existentes de raciocínio em vídeo em uma média de 2,4% em precisão, utilizando apenas 3,6% das amostras de treinamento. Por exemplo, o Video-RTS alcança uma melhoria de 4,2% no Video-Holmes, um benchmark recente e desafiador de raciocínio em vídeo, e uma melhoria de 2,6% no MMVU. Notavelmente, nosso treinamento puro de RL e o TTS adaptativo para vídeo oferecem pontos fortes complementares, permitindo o forte desempenho de raciocínio do Video-RTS.

English

Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.

Video-RTS: Repensando o Aprendizado por Reforço e a Escalonamento em Tempo de Teste para Raciocínio em Vídeo Eficiente e Aprimorado

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

Resumo

Support