ChatPaper.aiChatPaper

TokenPilot: Cache-effiziente Kontextverwaltung für LLM-Agenten

TokenPilot: Cache-Efficient Context Management for LLM Agents

June 15, 2026
Autoren: Buqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang
cs.AI

Zusammenfassung

Wenn LLM-Agenten in langfristigen Sitzungen eingesetzt werden, treibt die Kontextakkumulation die Inferenzkosten in die Höhe. Bestehende Ansätze nutzen Textbereinigung oder dynamisches Speicherverdrängen, um den Token-Fußabdruck zu minimieren; jedoch verändern ihre uneingeschränkten Sequenzmutationen die Layouts, was zu Präfix-Inkonsistenzen und Cache-Invalidierung führt. Dies offenbart einen kritischen Zielkonflikt zwischen Textsparsamkeit und Prompt-Cache-Kontinuität. Um dies zu adressieren, stellen wir TokenPilot vor, ein dual-granulares Kontextverwaltungsframework. Global fungiert die Ingestion-Aware Compaction als Rahmenwerkzeug, um Prompt-Präfixe zu stabilisieren und offene Umgebungsgeräusche am Aufnahmetor zu eliminieren. Lokal überwacht die Lifecycle-Aware Eviction den fortdauernden Restnutzen von Kontextsegmenten und erzwingt einen konservativen Batch-Turn-Zeitplan, um Inhaltssegmente nur dann auszulagern, wenn die Aufgabenrelevanz abläuft. Experimente auf PinchBench und Claw-Eval sowohl im isolierten als auch im kontinuierlichen Modus zeigen, dass TokenPilot die Kosten um 61% und 56% im isolierten Modus und um 61% und 87% im kontinuierlichen Modus senkt, während es eine wettbewerbsfähige Leistung im Vergleich zu früheren Systemen beibehält. TokenPilot wurde in LightMem2 unter https://github.com/zjunlp/LightMem2 integriert.
English
As LLM agents are deployed in long-horizon sessions, context accumulation drives up inference costs. Existing approaches utilize text pruning or dynamic memory eviction to minimize token footprints; however, their unconstrained sequence mutations alter layouts, introducing prefix mismatches and cache invalidation. This reveals a critical trade-off between text sparsity and prompt cache continuity. To address this, we present TokenPilot, a dual-granularity context management framework. Globally, Ingestion-Aware Compaction acts as a framework harness to stabilize prompt prefixes and eliminate open-world environmental noise at the ingestion gate. Locally, Lifecycle-Aware Eviction monitors the ongoing residual utility of context segments, enforcing a conservative batch-turn schedule to offload content segments only when task relevance expires. Experiments on PinchBench and Claw-Eval under both isolated and continuous modes demonstrate that TokenPilot reduces costs by 61% and 56% in isolated mode, and 61% and 87% in continuous mode, while maintaining competitive performance compared to prior systems. TokenPilot has been integrated into LightMem2 at https://github.com/zjunlp/LightMem2.