Video-RTS: Ripensare l'apprendimento per rinforzo e il ridimensionamento al momento del test per un ragionamento video efficiente e potenziato
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
Autori: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
Abstract
Nonostante i progressi nel ragionamento video basato sull'apprendimento per rinforzo (RL) con modelli linguistici di grandi dimensioni (LLM), la raccolta dei dati e il fine-tuning rimangono sfide significative. Questi metodi spesso si basano su un fine-tuning supervisionato su larga scala (SFT) con ampi set di dati video e lunghe annotazioni a catena di pensiero (CoT), rendendoli costosi e difficili da scalare. Per affrontare questo problema, presentiamo Video-RTS, un nuovo approccio per migliorare la capacità di ragionamento video con un'efficienza dei dati drasticamente migliorata, combinando un RL efficiente dal punto di vista dei dati con una strategia di ridimensionamento adattivo al momento del test (TTS) per i video. Sulla base di osservazioni riguardanti la scalabilità dei dati dei campioni di RL, saltiamo il passo ad alta intensità di risorse del SFT e utilizziamo un addestramento RL puro ed efficiente con ricompense basate sull'output, senza richiedere ulteriori annotazioni o un esteso fine-tuning. Inoltre, per utilizzare le risorse computazionali in modo più efficiente, introduciamo una strategia TTS video da sparso a denso che migliora l'inferenza aggiungendo iterativamente frame in base alla coerenza dell'output. Validiamo il nostro approccio su più benchmark di ragionamento video, dimostrando che Video-RTS supera i modelli esistenti di ragionamento video di una media del 2,4% in accuratezza utilizzando solo il 3,6% dei campioni di addestramento. Ad esempio, Video-RTS ottiene un miglioramento del 4,2% su Video-Holmes, un recente e impegnativo benchmark di ragionamento video, e un miglioramento del 2,6% su MMVU. È importante notare che il nostro addestramento RL puro e il TTS video adattivo offrono punti di forza complementari, consentendo a Video-RTS di ottenere prestazioni di ragionamento solide.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.