Ingénierie contextuelle agentique : Évolution des contextes pour les modèles de langage auto-améliorants
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
October 6, 2025
papers.authors: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun
cs.AI
papers.abstract
Les applications de grands modèles de langage (LLM), telles que les agents et le raisonnement spécifique à un domaine, reposent de plus en plus sur l'adaptation contextuelle — la modification des entrées avec des instructions, des stratégies ou des preuves, plutôt que des mises à jour de poids. Les approches précédentes améliorent l'utilisabilité mais souffrent souvent d'un biais de concision, qui sacrifie les insights spécifiques au domaine au profit de résumés succincts, et d'un effondrement contextuel, où les réécritures itératives érodent les détails au fil du temps. En s'appuyant sur la mémoire adaptative introduite par Dynamic Cheatsheet, nous présentons ACE (Agentic Context Engineering), un cadre qui traite les contextes comme des playbooks évolutifs qui accumulent, affinent et organisent les stratégies à travers un processus modulaire de génération, de réflexion et de curation. ACE prévient l'effondrement avec des mises à jour structurées et incrémentielles qui préservent les connaissances détaillées et s'adaptent aux modèles à contexte long. Sur des benchmarks d'agents et spécifiques à un domaine, ACE optimise les contextes à la fois hors ligne (par exemple, les prompts système) et en ligne (par exemple, la mémoire des agents), surpassant systématiquement les bases de référence solides : +10,6 % sur les agents et +8,6 % sur la finance, tout en réduisant significativement la latence d'adaptation et le coût de déploiement. Notamment, ACE a pu s'adapter efficacement sans supervision étiquetée, en exploitant plutôt les retours d'exécution naturels. Sur le classement AppWorld, ACE correspond à l'agent de niveau production le mieux classé sur la moyenne globale et le dépasse sur la division test-challenge plus difficile, malgré l'utilisation d'un modèle open-source plus petit. Ces résultats montrent que des contextes complets et évolutifs permettent des systèmes LLM évolutifs, efficaces et auto-améliorants avec un faible surcoût.
English
Large language model (LLM) applications such as agents and domain-specific
reasoning increasingly rely on context adaptation -- modifying inputs with
instructions, strategies, or evidence, rather than weight updates. Prior
approaches improve usability but often suffer from brevity bias, which drops
domain insights for concise summaries, and from context collapse, where
iterative rewriting erodes details over time. Building on the adaptive memory
introduced by Dynamic Cheatsheet, we introduce ACE (Agentic Context
Engineering), a framework that treats contexts as evolving playbooks that
accumulate, refine, and organize strategies through a modular process of
generation, reflection, and curation. ACE prevents collapse with structured,
incremental updates that preserve detailed knowledge and scale with
long-context models. Across agent and domain-specific benchmarks, ACE optimizes
contexts both offline (e.g., system prompts) and online (e.g., agent memory),
consistently outperforming strong baselines: +10.6% on agents and +8.6% on
finance, while significantly reducing adaptation latency and rollout cost.
Notably, ACE could adapt effectively without labeled supervision and instead by
leveraging natural execution feedback. On the AppWorld leaderboard, ACE matches
the top-ranked production-level agent on the overall average and surpasses it
on the harder test-challenge split, despite using a smaller open-source model.
These results show that comprehensive, evolving contexts enable scalable,
efficient, and self-improving LLM systems with low overhead.