ChatPaper.aiChatPaper

SAGE : Entraînement d'Agents Intelligents à Horizon Variable pour le Raisonnement sur de Longues Vidéos par Apprentissage par Renforcement

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

December 15, 2025
papers.authors: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI

papers.abstract

En tant qu'êtres humains, nous raisonnons naturellement sur des horizons temporels variables, c'est-à-dire que nous pouvons décider de parcourir itérativement de longues vidéos ou de regarder des vidéos courtes en entier lorsque cela est nécessaire pour une tâche donnée. Dans cette optique, on s'attendrait à ce que les modèles de raisonnement vidéo raisonnent de manière flexible sur différentes durées. Cependant, les modèles de l'état de l'art sont toujours entraînés à prédire des réponses en un seul tour tout en traitant un grand nombre de trames, ce qui revient à regarder une longue vidéo en entier et nécessite des ressources importantes. Cela soulève la question : est-il possible de développer des systèmes de raisonnement vidéo performants sur tous horizons ? Inspirés par le comportement humain, nous proposons d'abord SAGE, un système d'agent effectuant un raisonnement en plusieurs tours sur de longues vidéos tout en traitant les problèmes plus simples en un seul tour. Deuxièmement, nous présentons un pipeline simple de génération de données synthétiques utilisant Gemini-2.5-Flash pour entraîner l'orchestrateur, SAGE-MM, qui est au cœur de SAGE. Nous proposons en outre une recette efficace de post-entraînement par apprentissage par renforcement essentielle pour inculquer la capacité de raisonnement multi-horizon à SAGE-MM. Troisièmement, nous constituons SAGE-Bench, dont la durée moyenne est supérieure à 700 secondes, pour évaluer la capacité de raisonnement vidéo dans des cas d'usage réels de divertissement. Enfin, nous validons empiriquement l'efficacité de notre système, de nos données et de notre recette d'apprentissage par renforcement, en observant des améliorations notables allant jusqu'à 6,1 % sur les tâches de raisonnement vidéo à réponse libre, ainsi qu'une amélioration impressionnante de 8,2 % sur les vidéos de plus de 10 minutes.
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.
PDF142December 19, 2025