ChatPaper.aiChatPaper

SAGE: 強化学習による長尺ビデオ推論のためのスマート・エニーホライズン・エージェントの訓練

SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

December 15, 2025
著者: Jitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi
cs.AI

要旨

人間は本来、任意の時間軸で推論を行う能力を備えています。つまり、与えられたタスクに必要であれば、長い動画を反復的に流し見したり、短い動画を完全に視聴したりすることを臨機応変に判断できます。このことから、映像推論モデルも異なる時間スケールにわたって柔軟に推論できることが期待されます。しかし、現状のSOTAモデルは、長い動画を最初から最後まで視聴するように、大量のフレームを処理しながら単一のターンで答えを予測するように訓練されており、多大なリソースを必要とします。ここで疑問が生じます:高性能な任意時間軸映像推論システムの開発は可能か? 人間の行動にヒントを得て、我々はまずSAGEを提案します。これは、長い動画に対してはマルチターン推論を行い、より単純な問題については単一ターンで処理するエージェントシステムです。第二に、SAGEの中核をなすオーケストレータであるSAGE-MMを訓練するため、Gemini-2.5-Flashを用いた容易な合成データ生成パイプラインを導入します。さらに、SAGE-MMに任意時間軸推論能力を確実に習得させるために不可欠な、効果的な強化学習による事後学習手法を提案します。第三に、実世界のエンターテインメント用途における映像推論能力を評価するため、平均再生時間が700秒を超えるSAGE-Benchを構築しました。最後に、提案するシステム、データ、強化学習手法の有効性を実証的に検証し、オープンエンドの映像推論タスクで最大6.1%、10分を超える長い動画では顕著な8.2%の改善を確認しました。
English
As humans, we are natural any-horizon reasoners, i.e., we can decide whether to iteratively skim long videos or watch short ones in full when necessary for a given task. With this in mind, one would expect video reasoning models to reason flexibly across different durations. However, SOTA models are still trained to predict answers in a single turn while processing a large number of frames, akin to watching an entire long video, requiring significant resources. This raises the question: Is it possible to develop performant any-horizon video reasoning systems? Inspired by human behavior, we first propose SAGE, an agent system that performs multi-turn reasoning on long videos while handling simpler problems in a single turn. Secondly, we introduce an easy synthetic data generation pipeline using Gemini-2.5-Flash to train the orchestrator, SAGE-MM, which lies at the core of SAGE. We further propose an effective RL post-training recipe essential for instilling any-horizon reasoning ability in SAGE-MM. Thirdly, we curate SAGE-Bench with an average duration of greater than 700 seconds for evaluating video reasoning ability in real-world entertainment use cases. Lastly, we empirically validate the effectiveness of our system, data, and RL recipe, observing notable improvements of up to 6.1% on open-ended video reasoning tasks, as well as an impressive 8.2% improvement on videos longer than 10 minutes.
PDF142December 19, 2025