Video-RTS: Переосмысление обучения с подкреплением и масштабирования на этапе тестирования для эффективного и улучшенного анализа видеоданных
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
Авторы: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
Аннотация
Несмотря на прогресс в области видео-рассуждений на основе обучения с подкреплением (RL) с использованием больших языковых моделей (LLM), сбор данных и тонкая настройка остаются значительными проблемами. Эти методы часто полагаются на крупномасштабную контролируемую тонкую настройку (SFT) с обширными видеоданными и длинными аннотациями в виде цепочек рассуждений (CoT), что делает их дорогостоящими и сложными для масштабирования. Для решения этой проблемы мы представляем Video-RTS — новый подход, который улучшает способность к видео-рассуждениям с существенно повышенной эффективностью использования данных, сочетая ресурсоэффективное RL с адаптивной стратегией масштабирования на этапе тестирования (TTS), учитывающей особенности видео. Основываясь на наблюдениях за масштабированием данных RL-выборок, мы пропускаем ресурсоемкий этап SFT и применяем эффективное обучение на чистом RL с вознаграждениями, основанными на выходных данных, что не требует дополнительных аннотаций или обширной тонкой настройки. Кроме того, для более эффективного использования вычислительных ресурсов мы вводим стратегию TTS от разреженного к плотному видео, которая улучшает вывод, итеративно добавляя кадры на основе согласованности выходных данных. Мы проверяем наш подход на нескольких бенчмарках для видео-рассуждений, показывая, что Video-RTS превосходит существующие модели видео-рассуждений в среднем на 2,4% по точности, используя только 3,6% обучающих выборок. Например, Video-RTS достигает улучшения на 4,2% на Video-Holmes, недавнем и сложном бенчмарке для видео-рассуждений, и на 2,6% на MMVU. Примечательно, что наше чистое RL-обучение и адаптивное видео-TTS дополняют друг друга, обеспечивая высокую производительность Video-RTS в задачах рассуждений.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.