TokenPilot : Gestion de contexte efficace pour le cache des agents LLM
TokenPilot: Cache-Efficient Context Management for LLM Agents
June 15, 2026
Auteurs: Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
cs.AI
Résumé
Alors que les agents LLM sont déployés dans des sessions de longue durée, l'accumulation de contexte fait grimper les coûts d'inférence. Les approches existantes utilisent l'élagage de texte ou l'éviction dynamique de mémoire pour minimiser l'empreinte des tokens ; cependant, leurs mutations séquentielles non contraintes modifient les agencements, introduisant des décalages de préfixes et une invalidation du cache. Cela révèle un compromis critique entre la parcimonie du texte et la continuité du cache de prompts. Pour y remédier, nous présentons TokenPilot, un cadre de gestion de contexte à double granularité. Globalement, le compactage sensible à l'ingestion agit comme un harnais du cadre pour stabiliser les préfixes de prompts et éliminer le bruit environnemental du monde ouvert à la porte d'ingestion. Localement, l'éviction sensible au cycle de vie surveille l'utilité résiduelle continue des segments de contexte, imposant un calendrier conservateur par lots de tours pour décharger les segments de contenu uniquement lorsque leur pertinence pour la tâche expire. Les expériences sur PinchBench et Claw-Eval en modes isolé et continu montrent que TokenPilot réduit les coûts de 61 % et 56 % en mode isolé, et de 61 % et 87 % en mode continu, tout en maintenant des performances compétitives par rapport aux systèmes précédents. TokenPilot a été intégré dans LightMem2 à l'adresse https://github.com/zjunlp/LightMem2.
English
As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.