Mise à l'échelle des agents LLM à long terme via le pliage contextuel

papers.abstract

Les agents de modèles de langage de grande taille (LLM) sont fondamentalement limités par la longueur du contexte dans les tâches à long horizon. Nous introduisons Context-Folding, un cadre qui permet aux agents de gérer activement leur contexte de travail. Un agent peut se ramifier de manière procédurale dans une sous-trajectoire pour traiter une sous-tâche, puis la replier une fois terminée, en réduisant les étapes intermédiaires tout en conservant un résumé concis du résultat. Pour rendre ce comportement apprenable, nous développons un cadre d'apprentissage par renforcement end-to-end, FoldGRPO, avec des récompenses de processus spécifiques pour encourager une décomposition efficace des tâches et une gestion du contexte. Sur des tâches complexes à long horizon (Deep Research et SWE), notre agent de repliement égalise ou surpasse les bases de référence ReAct tout en utilisant un contexte actif 10 fois plus petit et surpasse significativement les modèles qui reposent sur une gestion du contexte basée sur la synthèse.

English

Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.

Mise à l'échelle des agents LLM à long terme via le pliage contextuel

Scaling Long-Horizon LLM Agent via Context-Folding

papers.abstract

Support