ChatPaper.aiChatPaper

Video-RTS: Replanteamiento del Aprendizaje por Refuerzo y la Escalabilidad en Tiempo de Prueba para un Razonamiento en Video Eficiente y Mejorado

Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning

July 9, 2025
Autores: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI

Resumen

A pesar de los avances en el razonamiento de video basado en aprendizaje por refuerzo (RL) con modelos de lenguaje grandes (LLMs), la recopilación de datos y el ajuste fino siguen siendo desafíos significativos. Estos métodos a menudo dependen de un ajuste fino supervisado (SFT) a gran escala con datos extensos de video y anotaciones largas de Cadena de Pensamiento (CoT), lo que los hace costosos y difíciles de escalar. Para abordar esto, presentamos Video-RTS, un nuevo enfoque para mejorar la capacidad de razonamiento de video con una eficiencia de datos drásticamente mejorada al combinar RL eficiente en datos con una estrategia de escalado en tiempo de prueba (TTS) adaptativa al video. Basándonos en observaciones sobre el escalado de datos de muestras de RL, omitimos el paso intensivo en recursos de SFT y empleamos un entrenamiento de RL puro eficiente con recompensas basadas en la salida, sin necesidad de anotaciones adicionales o ajuste fino extenso. Además, para utilizar los recursos computacionales de manera más eficiente, introducimos una estrategia de TTS de video de disperso a denso que mejora la inferencia al agregar iterativamente fotogramas basados en la consistencia de la salida. Validamos nuestro enfoque en múltiples benchmarks de razonamiento de video, mostrando que Video-RTS supera a los modelos existentes de razonamiento de video en un promedio de 2.4% en precisión utilizando solo el 3.6% de las muestras de entrenamiento. Por ejemplo, Video-RTS logra una mejora del 4.2% en Video-Holmes, un benchmark reciente y desafiante de razonamiento de video, y una mejora del 2.6% en MMVU. Notablemente, nuestro entrenamiento de RL puro y el TTS de video adaptativo ofrecen fortalezas complementarias, permitiendo el fuerte rendimiento de razonamiento de Video-RTS.
English
Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.
PDF31July 10, 2025