Video-RTS: 효율적이고 향상된 비디오 추론을 위한 강화 학습과 테스트 시간 스케일링 재고
Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
July 9, 2025
저자: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal
cs.AI
초록
대규모 언어 모델(LLM)을 활용한 강화 학습(RL) 기반 비디오 추론 기술이 발전했음에도 불구하고, 데이터 수집과 미세 조정은 여전히 큰 과제로 남아 있습니다. 이러한 방법들은 대규모의 비디오 데이터와 긴 사고의 연쇄(CoT) 주석을 포함한 대규모 지도 미세 조정(SFT)에 의존하는 경우가 많아, 비용이 많이 들고 확장하기 어렵습니다. 이를 해결하기 위해, 우리는 데이터 효율적인 RL과 비디오 적응형 테스트 시간 스케일링(TTS) 전략을 결합하여 데이터 효율성을 극적으로 개선한 새로운 접근 방식인 Video-RTS를 제안합니다. RL 샘플의 데이터 스케일링에 대한 관찰을 바탕으로, 우리는 자원 집약적인 SFT 단계를 건너뛰고 추가 주석이나 광범위한 미세 조정 없이도 출력 기반 보상을 사용한 효율적인 순수 RL 훈련을 적용합니다. 더 나아가, 계산 자원을 더 효율적으로 활용하기 위해, 출력 일관성을 기반으로 프레임을 반복적으로 추가하여 추론을 개선하는 희소에서 밀도로의 비디오 TTS 전략을 도입합니다. 우리는 여러 비디오 추론 벤치마크에서 이 접근 방식을 검증하여, Video-RTS가 기존 비디오 추론 모델을 평균 2.4% 정확도로 능가하며 단 3.6%의 훈련 샘플만 사용함을 보여줍니다. 예를 들어, Video-RTS는 최근에 도전적인 비디오 추론 벤치마크인 Video-Holmes에서 4.2%의 개선을, MMVU에서 2.6%의 개선을 달성했습니다. 특히, 우리의 순수 RL 훈련과 적응형 비디오 TTS는 상호 보완적인 강점을 제공하여 Video-RTS의 강력한 추론 성능을 가능하게 합니다.
English
Despite advances in reinforcement learning (RL)-based video reasoning with
large language models (LLMs), data collection and finetuning remain significant
challenges. These methods often rely on large-scale supervised fine-tuning
(SFT) with extensive video data and long Chain-of-Thought (CoT) annotations,
making them costly and hard to scale. To address this, we present Video-RTS, a
new approach to improve video reasoning capability with drastically improved
data efficiency by combining data-efficient RL with a video-adaptive test-time
scaling (TTS) strategy. Based on observations about the data scaling of RL
samples, we skip the resource-intensive SFT step and employ efficient pure-RL
training with output-based rewards, requiring no additional annotations or
extensive fine-tuning. Furthermore, to utilize computational resources more
efficiently, we introduce a sparse-to-dense video TTS strategy that improves
inference by iteratively adding frames based on output consistency. We validate
our approach on multiple video reasoning benchmarks, showing that Video-RTS
surpasses existing video reasoning models by an average of 2.4% in accuracy
using only 3.6% training samples. For example, Video-RTS achieves a 4.2%
improvement on Video-Holmes, a recent and challenging video reasoning
benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and
adaptive video TTS offer complementary strengths, enabling Video-RTS's strong
reasoning performance.