Video-RTS : Repenser l'apprentissage par renforcement et la mise à l'échelle au moment du test pour un raisonnement vidéo efficace et amélioré
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
papers.authors: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
papers.abstract
Malgré les avancées dans le raisonnement vidéo basé sur l'apprentissage par renforcement (RL) avec des modèles de langage à grande échelle (LLM), la collecte de données et le réglage fin restent des défis majeurs. Ces méthodes reposent souvent sur un réglage fin supervisé (SFT) à grande échelle nécessitant des données vidéo étendues et des annotations longues de type Chaîne de Pensée (CoT), ce qui les rend coûteuses et difficiles à étendre. Pour résoudre ce problème, nous présentons Video-RTS, une nouvelle approche visant à améliorer les capacités de raisonnement vidéo avec une efficacité accrue des données en combinant un RL économe en données avec une stratégie de mise à l'échelle adaptative au moment du test (TTS). En nous basant sur des observations concernant la mise à l'échelle des échantillons de RL, nous sautons l'étape de SFT gourmande en ressources et utilisons un entraînement RL pur basé sur des récompenses liées aux sorties, ne nécessitant aucune annotation supplémentaire ni réglage fin étendu. De plus, pour utiliser les ressources de calcul plus efficacement, nous introduisons une stratégie TTS vidéo allant de sparse à dense qui améliore l'inférence en ajoutant itérativement des trames basées sur la cohérence des sorties. Nous validons notre approche sur plusieurs benchmarks de raisonnement vidéo, montrant que Video-RTS surpasse les modèles existants de raisonnement vidéo avec une amélioration moyenne de 2,4 % en précision en utilisant seulement 3,6 % des échantillons d'entraînement. Par exemple, Video-RTS obtient une amélioration de 4,2 % sur Video-Holmes, un benchmark récent et difficile de raisonnement vidéo, et une amélioration de 2,6 % sur MMVU. Notamment, notre entraînement RL pur et la TTS vidéo adaptative offrent des avantages complémentaires, permettant à Video-RTS d'obtenir de solides performances en raisonnement.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.