ChatPaper.aiChatPaper

SAGE: Training intelligenter Any-Horizon-Agenten für Langzeit-Videoverstehen mit Reinforcement Learning

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

December 15, 2025
papers.authors: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI

papers.abstract

Als Menschen sind wir natürlicherweise Denker mit beliebigem Zeithorizont, d.h. wir können je nach Aufgabe entscheiden, ob wir lange Videos iterativ überfliegen oder kurze bei Bedarf vollständig ansehen. Vor diesem Hintergrund würde man erwarten, dass Video-Verstehensmodelle flexibel über verschiedene Zeiträume hinweg schlussfolgern. State-of-the-Art-Modelle werden jedoch nach wie vor so trainiert, dass sie Antworten in einem einzigen Durchgang vorhersagen, während sie eine große Anzahl von Frames verarbeiten – ähnlich dem Ansehen eines gesamten langen Videos –, was erhebliche Ressourcen erfordert. Dies wirft die Frage auf: Ist es möglich, leistungsstarke Video-Verstehensysteme mit beliebigem Zeithorizont zu entwickeln? Inspiriert vom menschlichen Verhalten schlagen wir erstens SAGE vor, ein Agentensystem, das mehrstufige Schlussfolgerungen bei langen Videos durchführt, während es einfachere Probleme in einem einzigen Durchgang löst. Zweitens führen wir eine einfache Pipeline zur Erzeugung synthetischer Daten unter Verwendung von Gemini-2.5-Flash ein, um den Orchestrator SAGE-MM zu trainieren, der das Herzstück von SAGE bildet. Wir schlagen weiterhin ein effektives Reinforcement-Learning-Nachtraining vor, das entscheidend ist, um SAGE-MM die Fähigkeit zum Denken mit beliebigem Zeithorizont zu verleihen. Drittens stellen wir SAGE-Bench mit einer durchschnittlichen Dauer von mehr als 700 Sekunden zusammen, um die Video-Verstehensfähigkeit in realen Unterhaltungsszenarien zu bewerten. Schließlich validieren wir empirisch die Wirksamkeit unseres Systems, unserer Daten und unserer RL-Methode und beobachten bemerkenswerte Verbesserungen von bis zu 6,1 % bei offenen Video-Verstehensaufgaben sowie eine beeindruckende Steigerung von 8,2 % bei Videos, die länger als 10 Minuten sind.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.
PDF142December 19, 2025