SAGE: Addestramento di Agenti Intelligenti per Qualsiasi Orizzonte nel Ragionamento su Video Lunghi con Apprendimento per Rinforzo
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
December 15, 2025
Autori: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI
Abstract
In quanto esseri umani, siamo ragionatori naturali a orizzonte variabile, ovvero possiamo decidere se scorrere iterativamente video lunghi o guardarne di brevi per intero quando necessario per un dato compito. Con questo in mente, ci si aspetterebbe che i modelli di ragionamento video ragionino flessibilmente su diverse durate. Tuttavia, i modelli allo stato dell'arte sono ancora addestrati a prevedere le risposte in un unico passaggio mentre elaborano un gran numero di fotogrammi, analogamente a guardare un intero video lungo, richiedendo risorse significative. Ciò solleva la questione: è possibile sviluppare sistemi di ragionamento video a orizzonte variabile performanti? Ispirati dal comportamento umano, proponiamo innanzitutto SAGE, un sistema agente che esegue ragionamenti a più passaggi su video lunghi gestendo al contempo problemi più semplici in un unico turno. In secondo luogo, introduciamo una pipeline semplificata per la generazione di dati sintetici utilizzando Gemini-2.5-Flash per addestrare l'orchestratore, SAGE-MM, che è il cuore di SAGE. Proponiamo inoltre un'efficace ricetta di post-addestramento con RL essenziale per infondere la capacità di ragionamento a orizzonte variabile in SAGE-MM. In terzo luogo, curiamo SAGE-Bench con una durata media superiore a 700 secondi per valutare la capacità di ragionamento video in casi d'uso reali dell'intrattenimento. Infine, convalidiamo empiricamente l'efficacia del nostro sistema, dei dati e della ricetta RL, osservando miglioramenti notevoli fino al 6,1% su compiti di ragionamento video a risposta aperta, nonché un impressionante miglioramento dell'8,2% su video più lunghi di 10 minuti.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.