TokenPilot: Gerenciamento de Contexto Eficiente em Cache para Agentes de LLM

Resumo

À medida que agentes LLM são implantados em sessões de longo horizonte, o acúmulo de contexto eleva os custos de inferência. Abordagens existentes utilizam poda de texto ou remoção dinâmica de memória para minimizar a pegada de tokens; no entanto, suas mutações de sequência não restritas alteram layouts, introduzindo incompatibilidades de prefixo e invalidação de cache. Isso revela um trade-off crítico entre esparsidade do texto e continuidade do cache de prompt. Para abordar isso, apresentamos o TokenPilot, uma estrutura de gerenciamento de contexto de dupla granularidade. Globalmente, a Compactação Consciente de Ingestão atua como um mecanismo da estrutura para estabilizar prefixos de prompt e eliminar ruídos ambientais de mundo aberto no portal de ingestão. Localmente, a Remoção Consciente de Ciclo de Vida monitora a utilidade residual contínua dos segmentos de contexto, impondo um cronograma conservador de lote-turno para descarregar segmentos de conteúdo apenas quando a relevância da tarefa expira. Experimentos no PinchBench e Claw-Eval em modos isolado e contínuo demonstram que o TokenPilot reduz os custos em 61% e 56% no modo isolado, e 61% e 87% no modo contínuo, enquanto mantém desempenho competitivo em comparação com sistemas anteriores. O TokenPilot foi integrado ao LightMem2 em https://github.com/zjunlp/LightMem2.

English

As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.