長期的なLLMエージェントのスケーリング:コンテキストフォールディングによるアプローチ
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
著者: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
要旨
大規模言語モデル(LLM)エージェントは、長期的なタスクにおいてコンテキスト長に根本的に制約を受けます。本論文では、エージェントが自身の作業コンテキストを積極的に管理できるようにするフレームワーク「Context-Folding」を提案します。このフレームワークでは、エージェントはサブタスクを処理するために手続き的にサブトラジェクトリに分岐し、完了後にそれを折りたたむことで、中間ステップを圧縮しながら結果の簡潔な要約を保持します。この動作を学習可能にするため、効果的なタスク分解とコンテキスト管理を促進する特定のプロセス報酬を備えたエンドツーエンドの強化学習フレームワーク「FoldGRPO」を開発しました。複雑な長期的タスク(Deep ResearchおよびSWE)において、フォールディングエージェントはReActベースラインと同等以上の性能を発揮しつつ、アクティブなコンテキストを10分の1のサイズで使用し、要約ベースのコンテキスト管理に依存するモデルを大幅に上回りました。
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.