ChatPaper.aiChatPaper

Video-RTS: Heroverweging van Reinforcement Learning en Test-Time Scaling voor Efficiënte en Verbeterde Videoredenering

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

July 9, 2025
Auteurs: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI

Samenvatting

Ondanks vooruitgang in op reinforcement learning (RL) gebaseerde videoredenenering met grote taalmodellen (LLMs), blijven gegevensverzameling en finetunen aanzienlijke uitdagingen. Deze methoden zijn vaak afhankelijk van grootschalig supervised fine-tuning (SFT) met uitgebreide videogegevens en lange Chain-of-Thought (CoT)-annotaties, wat ze kostbaar en moeilijk schaalbaar maakt. Om dit aan te pakken, presenteren we Video-RTS, een nieuwe aanpak om de videoredeneneringscapaciteit te verbeteren met een aanzienlijk verbeterde gegevensefficiëntie door data-efficiënte RL te combineren met een video-adaptieve test-time scaling (TTS)-strategie. Op basis van observaties over de gegevensschaling van RL-monsters, slaan we de resource-intensieve SFT-stap over en gebruiken we efficiënte pure-RL-training met output-gebaseerde beloningen, wat geen aanvullende annotaties of uitgebreid finetunen vereist. Bovendien introduceren we, om rekenbronnen efficiënter te benutten, een sparse-to-dense video TTS-strategie die de inferentie verbetert door iteratief frames toe te voegen op basis van outputconsistentie. We valideren onze aanpak op meerdere videoredeneneringsbenchmarks, waaruit blijkt dat Video-RTS bestaande videoredeneneringsmodellen gemiddeld met 2,4% in nauwkeurigheid overtreft met slechts 3,6% trainingsmonsters. Zo behaalt Video-RTS een verbetering van 4,2% op Video-Holmes, een recente en uitdagende videoredeneneringsbenchmark, en een verbetering van 2,6% op MMVU. Opmerkelijk is dat onze pure RL-training en adaptieve video TTS complementaire sterke punten bieden, wat de sterke redeneerprestaties van Video-RTS mogelijk maakt.
English
Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.
PDF41July 10, 2025