ChatPaper.aiChatPaper

Масштабирование агента на основе LLM для долгосрочных задач через контекстное сворачивание

Scaling Long-Horizon LLM Agent via Context-Folding

October 13, 2025
Авторы: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI

Аннотация

Агенты на основе больших языковых моделей (LLM) принципиально ограничены длиной контекста при выполнении задач с длительным горизонтом. Мы представляем Context-Folding — фреймворк, который позволяет агентам активно управлять своим рабочим контекстом. Агент может процедурно переходить в подтраекторию для обработки подзадачи, а затем сворачивать её по завершении, устраняя промежуточные шаги, но сохраняя краткое резюме результата. Чтобы сделать такое поведение обучаемым, мы разработали сквозной фреймворк обучения с подкреплением FoldGRPO с конкретными наградами за процесс, которые стимулируют эффективное разложение задач и управление контекстом. На сложных задачах с длительным горизонтом (Deep Research и SWE) наш агент с функцией сворачивания соответствует или превосходит базовые модели ReAct, используя активный контекст в 10 раз меньше, и значительно превосходит модели, полагающиеся на управление контекстом на основе суммаризации.
English
Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.
PDF32October 16, 2025