Mise à l'échelle des agents LLM à long terme via le pliage contextuel
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
papers.authors: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM) sont fondamentalement limités par la longueur du contexte dans les tâches à long horizon. Nous introduisons Context-Folding, un cadre qui permet aux agents de gérer activement leur contexte de travail. Un agent peut se ramifier de manière procédurale dans une sous-trajectoire pour traiter une sous-tâche, puis la replier une fois terminée, en réduisant les étapes intermédiaires tout en conservant un résumé concis du résultat. Pour rendre ce comportement apprenable, nous développons un cadre d'apprentissage par renforcement end-to-end, FoldGRPO, avec des récompenses de processus spécifiques pour encourager une décomposition efficace des tâches et une gestion du contexte. Sur des tâches complexes à long horizon (Deep Research et SWE), notre agent de repliement égalise ou surpasse les bases de référence ReAct tout en utilisant un contexte actif 10 fois plus petit et surpasse significativement les modèles qui reposent sur une gestion du contexte basée sur la synthèse.
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.