Video-RTS: Replanteamiento del Aprendizaje por Refuerzo y la Escalabilidad en Tiempo de Prueba para un Razonamiento en Video Eficiente y Mejorado
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
Autores: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
Resumen
A pesar de los avances en el razonamiento de video basado en aprendizaje por refuerzo (RL) con modelos de lenguaje grandes (LLMs), la recopilación de datos y el ajuste fino siguen siendo desafíos significativos. Estos métodos a menudo dependen de un ajuste fino supervisado (SFT) a gran escala con datos extensos de video y anotaciones largas de Cadena de Pensamiento (CoT), lo que los hace costosos y difíciles de escalar. Para abordar esto, presentamos Video-RTS, un nuevo enfoque para mejorar la capacidad de razonamiento de video con una eficiencia de datos drásticamente mejorada al combinar RL eficiente en datos con una estrategia de escalado en tiempo de prueba (TTS) adaptativa al video. Basándonos en observaciones sobre el escalado de datos de muestras de RL, omitimos el paso intensivo en recursos de SFT y empleamos un entrenamiento de RL puro eficiente con recompensas basadas en la salida, sin necesidad de anotaciones adicionales o ajuste fino extenso. Además, para utilizar los recursos computacionales de manera más eficiente, introducimos una estrategia de TTS de video de disperso a denso que mejora la inferencia al agregar iterativamente fotogramas basados en la consistencia de la salida. Validamos nuestro enfoque en múltiples benchmarks de razonamiento de video, mostrando que Video-RTS supera a los modelos existentes de razonamiento de video en un promedio de 2.4% en precisión utilizando solo el 3.6% de las muestras de entrenamiento. Por ejemplo, Video-RTS logra una mejora del 4.2% en Video-Holmes, un benchmark reciente y desafiante de razonamiento de video, y una mejora del 2.6% en MMVU. Notablemente, nuestro entrenamiento de RL puro y el TTS de video adaptativo ofrecen fortalezas complementarias, permitiendo el fuerte rendimiento de razonamiento de Video-RTS.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.