Video-RTS: Ripensare l'apprendimento per rinforzo e il ridimensionamento al momento del test per un ragionamento video efficiente e potenziato

Abstract

Nonostante i progressi nel ragionamento video basato sull'apprendimento per rinforzo (RL) con modelli linguistici di grandi dimensioni (LLM), la raccolta dei dati e il fine-tuning rimangono sfide significative. Questi metodi spesso si basano su un fine-tuning supervisionato su larga scala (SFT) con ampi set di dati video e lunghe annotazioni a catena di pensiero (CoT), rendendoli costosi e difficili da scalare. Per affrontare questo problema, presentiamo Video-RTS, un nuovo approccio per migliorare la capacità di ragionamento video con un'efficienza dei dati drasticamente migliorata, combinando un RL efficiente dal punto di vista dei dati con una strategia di ridimensionamento adattivo al momento del test (TTS) per i video. Sulla base di osservazioni riguardanti la scalabilità dei dati dei campioni di RL, saltiamo il passo ad alta intensità di risorse del SFT e utilizziamo un addestramento RL puro ed efficiente con ricompense basate sull'output, senza richiedere ulteriori annotazioni o un esteso fine-tuning. Inoltre, per utilizzare le risorse computazionali in modo più efficiente, introduciamo una strategia TTS video da sparso a denso che migliora l'inferenza aggiungendo iterativamente frame in base alla coerenza dell'output. Validiamo il nostro approccio su più benchmark di ragionamento video, dimostrando che Video-RTS supera i modelli esistenti di ragionamento video di una media del 2,4% in accuratezza utilizzando solo il 3,6% dei campioni di addestramento. Ad esempio, Video-RTS ottiene un miglioramento del 4,2% su Video-Holmes, un recente e impegnativo benchmark di ragionamento video, e un miglioramento del 2,6% su MMVU. È importante notare che il nostro addestramento RL puro e il TTS video adattivo offrono punti di forza complementari, consentendo a Video-RTS di ottenere prestazioni di ragionamento solide.

English

Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.

Video-RTS: Ripensare l'apprendimento per rinforzo e il ridimensionamento al momento del test per un ragionamento video efficiente e potenziato

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

Abstract

Support