TokenPilot: Gerenciamento de Contexto Eficiente em Cache para Agentes de LLM
TokenPilot: Cache-Efficient Context Management for LLM Agents
June 15, 2026
Autores: Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
cs.AI
Resumo
À medida que agentes LLM são implantados em sessões de longo horizonte, o acúmulo de contexto eleva os custos de inferência. Abordagens existentes utilizam poda de texto ou remoção dinâmica de memória para minimizar a pegada de tokens; no entanto, suas mutações de sequência não restritas alteram layouts, introduzindo incompatibilidades de prefixo e invalidação de cache. Isso revela um trade-off crítico entre esparsidade do texto e continuidade do cache de prompt. Para abordar isso, apresentamos o TokenPilot, uma estrutura de gerenciamento de contexto de dupla granularidade. Globalmente, a Compactação Consciente de Ingestão atua como um mecanismo da estrutura para estabilizar prefixos de prompt e eliminar ruídos ambientais de mundo aberto no portal de ingestão. Localmente, a Remoção Consciente de Ciclo de Vida monitora a utilidade residual contínua dos segmentos de contexto, impondo um cronograma conservador de lote-turno para descarregar segmentos de conteúdo apenas quando a relevância da tarefa expira. Experimentos no PinchBench e Claw-Eval em modos isolado e contínuo demonstram que o TokenPilot reduz os custos em 61% e 56% no modo isolado, e 61% e 87% no modo contínuo, enquanto mantém desempenho competitivo em comparação com sistemas anteriores. O TokenPilot foi integrado ao LightMem2 em https://github.com/zjunlp/LightMem2.
English
As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.