ChatPaper.aiChatPaper

Skalierung von Langzeit-LLM-Agenten durch Kontext-Faltung

Scaling Long-Horizon LLM Agent via Context-Folding

October 13, 2025
papers.authors: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI

papers.abstract

Große Sprachmodell-Agenten (LLM) sind grundsätzlich durch die Kontextlänge bei langfristigen Aufgaben eingeschränkt. Wir stellen Context-Folding vor, ein Framework, das Agenten befähigt, ihren Arbeitskontext aktiv zu verwalten. Ein Agent kann prozedural in eine Untertrajektorie verzweigen, um eine Teilaufgabe zu bearbeiten, und diese nach Abschluss falten, wobei die Zwischenschritte zusammengefasst werden, während eine prägnante Zusammenfassung des Ergebnisses erhalten bleibt. Um dieses Verhalten erlernbar zu machen, entwickeln wir ein end-to-end Reinforcement-Learning-Framework namens FoldGRPO mit spezifischen Prozessbelohnungen, die eine effektive Aufgabenzerlegung und Kontextverwaltung fördern. Bei komplexen, langfristigen Aufgaben (Deep Research und SWE) erreicht unser Folding-Agent vergleichbare oder bessere Ergebnisse als die ReAct-Baselines, während er einen aktiven Kontext verwendet, der 10-mal kleiner ist, und deutlich besser abschneidet als Modelle, die auf zusammenfassungsbasierte Kontextverwaltung angewiesen sind.
English
Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.
PDF32October 16, 2025