Schaalvergroting van Langetermijn-LLM-Agenten via Contextvouwing
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
Auteurs: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
Samenvatting
Grote taalmodel (LLM) agenten worden fundamenteel beperkt door de contextlengte bij taken met een lange horizon. We introduceren Context-Folding, een raamwerk dat agenten in staat stelt om hun werkcontext actief te beheren. Een agent kan procedureel vertakken in een sub-traject om een subtask af te handelen en deze vervolgens inklappen na voltooiing, waarbij de tussenliggende stappen worden samengevat terwijl een beknopte samenvatting van het resultaat behouden blijft. Om dit gedrag leerbaar te maken, ontwikkelen we een end-to-end reinforcement learning raamwerk genaamd FoldGRPO, met specifieke procesbeloningen om effectieve taakdecompositie en contextbeheer aan te moedigen. Bij complexe taken met een lange horizon (Deep Research en SWE) presteert onze folding-agent even goed of beter dan de ReAct-baselines, terwijl hij een actieve context gebruikt die 10 keer kleiner is, en hij presteert aanzienlijk beter dan modellen die vertrouwen op samenvattingsgebaseerd contextbeheer.
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.