ChatPaper.aiChatPaper

Video-RTS : Repenser l'apprentissage par renforcement et la mise à l'échelle au moment du test pour un raisonnement vidéo efficace et amélioré

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

July 9, 2025
papers.authors: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI

papers.abstract

Malgré les avancées dans le raisonnement vidéo basé sur l'apprentissage par renforcement (RL) avec des modèles de langage à grande échelle (LLM), la collecte de données et le réglage fin restent des défis majeurs. Ces méthodes reposent souvent sur un réglage fin supervisé (SFT) à grande échelle nécessitant des données vidéo étendues et des annotations longues de type Chaîne de Pensée (CoT), ce qui les rend coûteuses et difficiles à étendre. Pour résoudre ce problème, nous présentons Video-RTS, une nouvelle approche visant à améliorer les capacités de raisonnement vidéo avec une efficacité accrue des données en combinant un RL économe en données avec une stratégie de mise à l'échelle adaptative au moment du test (TTS). En nous basant sur des observations concernant la mise à l'échelle des échantillons de RL, nous sautons l'étape de SFT gourmande en ressources et utilisons un entraînement RL pur basé sur des récompenses liées aux sorties, ne nécessitant aucune annotation supplémentaire ni réglage fin étendu. De plus, pour utiliser les ressources de calcul plus efficacement, nous introduisons une stratégie TTS vidéo allant de sparse à dense qui améliore l'inférence en ajoutant itérativement des trames basées sur la cohérence des sorties. Nous validons notre approche sur plusieurs benchmarks de raisonnement vidéo, montrant que Video-RTS surpasse les modèles existants de raisonnement vidéo avec une amélioration moyenne de 2,4 % en précision en utilisant seulement 3,6 % des échantillons d'entraînement. Par exemple, Video-RTS obtient une amélioration de 4,2 % sur Video-Holmes, un benchmark récent et difficile de raisonnement vidéo, et une amélioration de 2,6 % sur MMVU. Notamment, notre entraînement RL pur et la TTS vidéo adaptative offrent des avantages complémentaires, permettant à Video-RTS d'obtenir de solides performances en raisonnement.
English
Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.
PDF41July 10, 2025