PEEK : Carte de contexte comme cache d'orientation pour les agents LLM à long contexte

Résumé

Les agents basés sur de grands modèles de langage (LLM) opèrent de plus en plus fréquemment sur des contextes externes longs et récurrents, tels que des corpus documentaires et des référentiels de code. Au fil des invocations, les approches existantes préservent soit la trajectoire de l'agent, soit un accès passif au matériau brut, soit des stratégies au niveau de la tâche. Aucune d'elles ne préserve ce que nous considérons comme le plus nécessaire pour des charges de travail répétées dans un même contexte : une connaissance d'orientation réutilisable (par exemple, ce que contient le contexte, comment il est organisé, et quelles entités, constantes et schémas se sont historiquement avérés utiles) concernant le contexte récurrent lui-même. Nous introduisons PEEK, un système qui met en cache et maintient cette connaissance d'orientation sous la forme d'une carte de contexte : un artefact de taille constante et réduite dans le prompt de l'agent, lui offrant un aperçu persistant du contexte externe. La carte est gérée par une politique de cache programmable comprenant trois modules : un Distillateur qui extrait des connaissances transférables à partir de signaux d'inférence, un Cartographe qui les traduit en modifications structurées, et un Évinceur basé sur la priorité qui impose un budget de jetons fixe. En matière de raisonnement sur de longs contextes et d'agrégation d'informations, PEEK améliore les performances par rapport à des références solides de 6,3 à 34,0 %, tout en utilisant 93 à 145 itérations de moins et en engendrant un coût 1,7 à 5,8 fois inférieur à celui du framework d'apprentissage de prompts le plus avancé, ACE. Pour l'apprentissage contextuel, PEEK améliore le taux de résolution et la précision du barème de correction de 6,0 à 14,0 % et de 7,8 à 12,1 %, respectivement, avec un coût 1,4 fois inférieur à celui d'ACE. Ces gains se généralisent à travers les modèles de langage et les architectures d'agents, y compris OpenAI Codex, un agent de codage de niveau production. Ensemble, ces résultats montrent qu'une carte de contexte aide les agents LLM à interagir avec des contextes externes récurrents de manière plus précise et plus efficace.

English

Large language model (LLM) agents increasingly operate over long and recurring external contexts, like document corpora and code repositories. Across invocations, existing approaches preserve either the agent's trajectory, passive access to raw material, or task-level strategies. None of them preserves what we argue is most needed for repeated same-context workloads: reusable orientation knowledge (e.g., what the context contains, how it is organized, and which entities, constants, and schemas have historically been useful) about the recurring context itself. We introduce PEEK, a system that caches and maintains this orientation knowledge as a context map: a small, constant-sized artifact in the agent's prompt that gives it a persistent peek into the external context. The map is maintained by a programmable cache policy with three modules: a Distiller that extracts transferable knowledge from inference-time signals, a Cartographer that translates it into structured edits, and a priority-based Evictor that enforces a fixed token budget. On long-context reasoning and information aggregation, PEEK improves over strong baselines by 6.3-34.0% while using 93-145 fewer iterations and incurring 1.7-5.8x lower cost than the state-of-the-art prompt-learning framework, ACE. On context learning, PEEK improves solving rate and rubric accuracy by 6.0-14.0% and 7.8-12.1%, respectively, at 1.4x lower cost than ACE. These gains generalize across LMs and agent architectures, including OpenAI Codex, a production-grade coding agent. Together, these results show that a context map helps long-context LLM agents interact with recurring external contexts more accurately and efficiently.