ChatPaper.aiChatPaper

TokenPilot: Кэш-эффективное управление контекстом для LLM-агентов

TokenPilot: Cache-Efficient Context Management for LLM Agents

June 15, 2026
Авторы: Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
cs.AI

Аннотация

По мере развертывания LLM-агентов в долгосрочных сеансах накопление контекста приводит к росту затрат на инференс. Существующие подходы используют текстовое сокращение или динамическое вытеснение памяти для минимизации объема токенов; однако их неконтролируемые модификации последовательностей изменяют разметку, вызывая несоответствия префиксов и аннулирование кэша. Это выявляет критический компромисс между разреженностью текста и непрерывностью кэша подсказок. Для решения этой проблемы мы представляем TokenPilot — фреймворк двухуровневого управления контекстом. На глобальном уровне «Компактизация с учетом ввода» выступает в роли организационной рамки, стабилизируя префиксы подсказок и устраняя открытый фоновый шум на входном шлюзе. На локальном уровне «Вытеснение с учетом жизненного цикла» отслеживает текущую остаточную полезность сегментов контекста, применяя консервативный график пакетных циклов для выгрузки сегментов содержимого только после истечения актуальности задачи. Эксперименты на PinchBench и Claw-Eval в изолированном и непрерывном режимах показывают, что TokenPilot снижает затраты на 61% и 56% в изолированном режиме, а также на 61% и 87% в непрерывном режиме, сохраняя конкурентоспособную производительность по сравнению с предыдущими системами. TokenPilot интегрирован в LightMem2 по адресу https://github.com/zjunlp/LightMem2.
English
As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.