ChatPaper.aiChatPaper

Video-RTS: Neubewertung von Reinforcement Learning und Testzeit-Skalierung für effizientes und verbessertes Video-Verständnis

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

July 9, 2025
papers.authors: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI

papers.abstract

Trotz Fortschritten bei der videobasierten Argumentation mit Reinforcement Learning (RL) und großen Sprachmodellen (LLMs) bleiben Datenerfassung und Feinabstimmung erhebliche Herausforderungen. Diese Methoden beruhen oft auf groß angelegtem überwachtem Feinabstimmen (SFT) mit umfangreichen Videodaten und langen Chain-of-Thought (CoT)-Annotationen, was sie kostspielig und schwer skalierbar macht. Um dies zu bewältigen, präsentieren wir Video-RTS, einen neuen Ansatz zur Verbesserung der videobasierten Argumentationsfähigkeit mit deutlich gesteigerter Dateneffizienz durch die Kombination von dateneffizientem RL mit einer videoadaptiven Testzeit-Skalierungsstrategie (TTS). Basierend auf Beobachtungen zur Datenskalierung von RL-Proben überspringen wir den ressourcenintensiven SFT-Schritt und setzen effizientes reines RL-Training mit outputbasierten Belohnungen ein, das keine zusätzlichen Annotationen oder umfangreiche Feinabstimmung erfordert. Darüber hinaus führen wir eine spärlich-dichte Video-TTS-Strategie ein, die die Inferenz verbessert, indem sie basierend auf der Konsistenz der Ausgaben iterativ Frames hinzufügt. Wir validieren unseren Ansatz an mehreren Benchmarks für videobasierte Argumentation und zeigen, dass Video-RTS bestehende Modelle für videobasierte Argumentation im Durchschnitt um 2,4 % in der Genauigkeit übertrifft, wobei nur 3,6 % der Trainingsdaten verwendet werden. Beispielsweise erzielt Video-RTS eine Verbesserung von 4,2 % bei Video-Holmes, einem aktuellen und anspruchsvollen Benchmark für videobasierte Argumentation, und eine Verbesserung von 2,6 % bei MMVU. Bemerkenswerterweise bieten unser reines RL-Training und die adaptive Video-TTS komplementäre Stärken, die die starke Argumentationsleistung von Video-RTS ermöglichen.
English
Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.
PDF41July 10, 2025