SAGE: Entrenamiento de Agentes Inteligentes de Horizonte Variable para el Razonamiento en Videos Largos con Aprendizaje por Refuerzo
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
December 15, 2025
Autores: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI
Resumen
Los seres humanos somos razonadores naturales de horizonte múltiple, es decir, podemos decidir si ojear iterativamente vídeos largos o ver vídeos cortos completos cuando es necesario para una tarea concreta. Con esto en mente, cabría esperar que los modelos de razonamiento sobre vídeos razonaran de forma flexible a través de diferentes duraciones. Sin embargo, los modelos de última generación (SOTA) aún se entrenan para predecir respuestas en una única iteración mientras procesan un gran número de fotogramas, similar a ver un vídeo largo completo, lo que requiere recursos significativos. Esto plantea la pregunta: ¿Es posible desarrollar sistemas de razonamiento sobre vídeos de horizonte múltiple que sean eficaces? Inspirados por el comportamiento humano, primero proponemos SAGE, un sistema de agente que realiza razonamiento multiturno sobre vídeos largos mientras maneja problemas más simples en una sola iteración. En segundo lugar, presentamos un pipeline sencillo de generación de datos sintéticos utilizando Gemini-2.5-Flash para entrenar al orquestador, SAGE-MM, que se encuentra en el núcleo de SAGE. Además, proponemos una receta efectiva de post-entrenamiento por RL (Refuerzo de Aprendizaje) esencial para inculcar la capacidad de razonamiento de horizonte múltiple en SAGE-MM. En tercer lugar, creamos SAGE-Bench con una duración media superior a 700 segundos para evaluar la capacidad de razonamiento sobre vídeos en casos de uso reales de entretenimiento. Por último, validamos empíricamente la efectividad de nuestro sistema, datos y receta de RL, observando mejoras notables de hasta el 6.1% en tareas de razonamiento sobre vídeos de respuesta abierta, así como una impresionante mejora del 8.2% en vídeos de más de 10 minutos de duración.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.