Escalonamento de Agentes LLM de Longo Horizonte por meio de Dobramento de Contexto
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
Autores: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
Resumo
Agentes de modelos de linguagem de grande escala (LLMs) são fundamentalmente limitados pelo comprimento do contexto em tarefas de longo horizonte. Introduzimos o Context-Folding, uma estrutura que capacita os agentes a gerenciar ativamente seu contexto de trabalho. Um agente pode ramificar-se proceduralmente em uma sub-trajetória para lidar com uma subtarefa e, em seguida, dobrá-la após a conclusão, colapsando os passos intermediários enquanto retém um resumo conciso do resultado. Para tornar esse comportamento aprendível, desenvolvemos uma estrutura de aprendizado por reforço de ponta a ponta, o FoldGRPO, com recompensas de processo específicas para incentivar a decomposição eficaz de tarefas e o gerenciamento de contexto. Em tarefas complexas de longo horizonte (Deep Research e SWE), nosso agente de dobra corresponde ou supera as linhas de base do ReAct enquanto utiliza um contexto ativo 10 vezes menor e supera significativamente os modelos que dependem de gerenciamento de contexto baseado em resumos.
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.