SAGE: Slimme Any-Horizon Agenten Trainen voor Lange Video-redenering met Versterkend Leren
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
December 15, 2025
Auteurs: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI
Samenvatting
Als mensen zijn we van nature redeneerders met een variabel tijdsbereik - we kunnen bijvoorbeeld iteratief door lange video's scrollen of korte video's volledig bekijken, afhankelijk van wat een taak vereist. Gezien dit gegeven zou men verwachten dat videoredeneermodellen flexibel kunnen redeneren over verschillende tijdsduren. State-of-the-art-modellen worden echter nog steeds getraind om antwoorden in één keer te voorspellen terwijl ze een groot aantal frames verwerken, vergelijkbaar met het bekijken van een volledige lange video, wat aanzienlijke resources vereist. Dit roept de vraag op: Is het mogelijk om hoogwaardige videoredeneersystemen met een variabel tijdsbereik te ontwikkelen?
Geïnspireerd door menselijk gedrag stellen we allereerst SAGE voor, een agentsysteem dat multi-turn redeneren toepast op lange video's, terwijl het eenvoudigere problemen in één keer aanpakt. Ten tweede introduceren we een eenvoudige pijplijn voor het genereren van synthetische data met Gemini-2.5-Flash om de orchestrator, SAGE-MM, die de kern van SAGE vormt, te trainen. We stellen verder een effectief RL-post-trainingrecept voor dat essentieel is om SAGE-MM het vermogen tot redeneren met een variabel tijdsbereik aan te leren. Ten derde stellen we SAGE-Bench samen, met een gemiddelde duur van meer dan 700 seconden, om het videoredeneervermogen te evalueren in real-world entertainment use cases. Tot slot valideren we empirisch de effectiviteit van ons systeem, de data en het RL-recept, waarbij we aanzienlijke verbeteringen waarnemen van tot 6,1% bij open-einde videoredeneertaken, en een indrukwekkende verbetering van 8,2% bij video's langer dan 10 minuten.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.