Video-RTS: Neubewertung von Reinforcement Learning und Testzeit-Skalierung für effizientes und verbessertes Video-Verständnis
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
papers.authors: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
papers.abstract
Trotz Fortschritten bei der videobasierten Argumentation mit Reinforcement Learning (RL) und großen Sprachmodellen (LLMs) bleiben Datenerfassung und Feinabstimmung erhebliche Herausforderungen. Diese Methoden beruhen oft auf groß angelegtem überwachtem Feinabstimmen (SFT) mit umfangreichen Videodaten und langen Chain-of-Thought (CoT)-Annotationen, was sie kostspielig und schwer skalierbar macht. Um dies zu bewältigen, präsentieren wir Video-RTS, einen neuen Ansatz zur Verbesserung der videobasierten Argumentationsfähigkeit mit deutlich gesteigerter Dateneffizienz durch die Kombination von dateneffizientem RL mit einer videoadaptiven Testzeit-Skalierungsstrategie (TTS). Basierend auf Beobachtungen zur Datenskalierung von RL-Proben überspringen wir den ressourcenintensiven SFT-Schritt und setzen effizientes reines RL-Training mit outputbasierten Belohnungen ein, das keine zusätzlichen Annotationen oder umfangreiche Feinabstimmung erfordert. Darüber hinaus führen wir eine spärlich-dichte Video-TTS-Strategie ein, die die Inferenz verbessert, indem sie basierend auf der Konsistenz der Ausgaben iterativ Frames hinzufügt. Wir validieren unseren Ansatz an mehreren Benchmarks für videobasierte Argumentation und zeigen, dass Video-RTS bestehende Modelle für videobasierte Argumentation im Durchschnitt um 2,4 % in der Genauigkeit übertrifft, wobei nur 3,6 % der Trainingsdaten verwendet werden. Beispielsweise erzielt Video-RTS eine Verbesserung von 4,2 % bei Video-Holmes, einem aktuellen und anspruchsvollen Benchmark für videobasierte Argumentation, und eine Verbesserung von 2,6 % bei MMVU. Bemerkenswerterweise bieten unser reines RL-Training und die adaptive Video-TTS komplementäre Stärken, die die starke Argumentationsleistung von Video-RTS ermöglichen.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.