SAGE: 강화 학습을 통한 장기 비디오 추론을 위한 스마트 임의-시간 에이전트 훈련
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
December 15, 2025
저자: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI
초록
인간은 본질적으로 임의 시간 범위(any-horizon) 추론자입니다. 즉, 주어진 작업에 필요할 경우 긴 동영상을 반복적으로 훑어보거나 짧은 동영상을 완전히 시청할지 유연하게 결정할 수 있습니다. 이러한 점을 고려하면, 동영상 추론 모델도 서로 다른 지속 시간에 걸쳐 유연하게 추론할 수 있을 것이라 기대할 수 있습니다. 그러나 최첨단(SOTA) 모델들은 여전히 긴 동영상 전체를 시청하는 것처럼 많은 수의 프레임을 처리하면서 단일 턴(turn) 내에서 답변을 예측하도록 훈련되어 상당한 자원을 요구합니다. 이는 다음과 같은 의문을 제기합니다: 성능이 우수한 임의 시간 범위 동영상 추론 시스템을 개발하는 것이 가능할까? 인간의 행동에서 영감을 받아, 우리는 먼저 긴 동영상에 대해 다중 턴(multi-turn) 추론을 수행하면서도 간단한 문제는 단일 턴으로 처리하는 에이전트 시스템인 SAGE를 제안합니다. 두 번째로, SAGE의 핵심에 있는 오케스트레이터(orchstrator)인 SAGE-MM을 훈련시키기 위해 Gemini-2.5-Flash를 사용하는 쉬운 합성 데이터 생성 파이프라인을 소개합니다. 또한 SAGE-MM에 임의 시간 범위 추론 능력을 함양시키는 데 필수적인 효과적인 강화 학습(RL) 사후 훈련 방법을 제안합니다. 세 번째로, 실제 엔터테인먼트 사용 사례에서 동영상 추론 능력을 평가하기 위해 평균 지속 시간 700초 이상의 SAGE-Bench를 정밀하게 구축합니다. 마지막으로, 우리는 우리 시스템, 데이터 및 RL 방법의 효과를 실증적으로 검증하여, 개방형 동영상 추론 작업에서 최대 6.1%의 뚜렷한 개선과 10분 이상의 긴 동영상에서는 인상적인 8.2%의 향상을 관찰했습니다.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.