TokenPilot: Gestión de Contexto Eficiente en Caché para Agentes de LLM

Resumen

A medida que los agentes LLM se despliegan en sesiones de largo horizonte, la acumulación de contexto incrementa los costos de inferencia. Los enfoques existentes utilizan poda de texto o eliminación dinámica de memoria para minimizar la huella de tokens; sin embargo, sus mutaciones no restringidas de secuencia alteran los diseños, introduciendo desajustes de prefijo e invalidación de caché. Esto revela un equilibrio crítico entre la escasez de texto y la continuidad de la caché de indicaciones. Para abordar esto, presentamos TokenPilot, un marco de gestión de contexto de doble granularidad. A nivel global, la Compactación Consciente de Ingesta actúa como un arnés del marco para estabilizar los prefijos de indicación y eliminar el ruido ambiental del mundo abierto en la puerta de ingesta. A nivel local, la Eliminación Consciente del Ciclo de Vida monitorea la utilidad residual actual de los segmentos de contexto, imponiendo un programa conservador de turnos por lotes para descargar segmentos de contenido solo cuando la relevancia de la tarea expira. Los experimentos en PinchBench y Claw-Eval en modos aislado y continuo demuestran que TokenPilot reduce los costos en un 61% y 56% en modo aislado, y en un 61% y 87% en modo continuo, manteniendo un rendimiento competitivo en comparación con sistemas anteriores. TokenPilot ha sido integrado en LightMem2 en https://github.com/zjunlp/LightMem2.

English

As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.