ChatPaper.aiChatPaper

Ingénierie contextuelle agentique : Évolution des contextes pour les modèles de langage auto-améliorants

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

October 6, 2025
papers.authors: Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun
cs.AI

papers.abstract

Les applications de grands modèles de langage (LLM), telles que les agents et le raisonnement spécifique à un domaine, reposent de plus en plus sur l'adaptation contextuelle — la modification des entrées avec des instructions, des stratégies ou des preuves, plutôt que des mises à jour de poids. Les approches précédentes améliorent l'utilisabilité mais souffrent souvent d'un biais de concision, qui sacrifie les insights spécifiques au domaine au profit de résumés succincts, et d'un effondrement contextuel, où les réécritures itératives érodent les détails au fil du temps. En s'appuyant sur la mémoire adaptative introduite par Dynamic Cheatsheet, nous présentons ACE (Agentic Context Engineering), un cadre qui traite les contextes comme des playbooks évolutifs qui accumulent, affinent et organisent les stratégies à travers un processus modulaire de génération, de réflexion et de curation. ACE prévient l'effondrement avec des mises à jour structurées et incrémentielles qui préservent les connaissances détaillées et s'adaptent aux modèles à contexte long. Sur des benchmarks d'agents et spécifiques à un domaine, ACE optimise les contextes à la fois hors ligne (par exemple, les prompts système) et en ligne (par exemple, la mémoire des agents), surpassant systématiquement les bases de référence solides : +10,6 % sur les agents et +8,6 % sur la finance, tout en réduisant significativement la latence d'adaptation et le coût de déploiement. Notamment, ACE a pu s'adapter efficacement sans supervision étiquetée, en exploitant plutôt les retours d'exécution naturels. Sur le classement AppWorld, ACE correspond à l'agent de niveau production le mieux classé sur la moyenne globale et le dépasse sur la division test-challenge plus difficile, malgré l'utilisation d'un modèle open-source plus petit. Ces résultats montrent que des contextes complets et évolutifs permettent des systèmes LLM évolutifs, efficaces et auto-améliorants avec un faible surcoût.
English
Large language model (LLM) applications such as agents and domain-specific reasoning increasingly rely on context adaptation -- modifying inputs with instructions, strategies, or evidence, rather than weight updates. Prior approaches improve usability but often suffer from brevity bias, which drops domain insights for concise summaries, and from context collapse, where iterative rewriting erodes details over time. Building on the adaptive memory introduced by Dynamic Cheatsheet, we introduce ACE (Agentic Context Engineering), a framework that treats contexts as evolving playbooks that accumulate, refine, and organize strategies through a modular process of generation, reflection, and curation. ACE prevents collapse with structured, incremental updates that preserve detailed knowledge and scale with long-context models. Across agent and domain-specific benchmarks, ACE optimizes contexts both offline (e.g., system prompts) and online (e.g., agent memory), consistently outperforming strong baselines: +10.6% on agents and +8.6% on finance, while significantly reducing adaptation latency and rollout cost. Notably, ACE could adapt effectively without labeled supervision and instead by leveraging natural execution feedback. On the AppWorld leaderboard, ACE matches the top-ranked production-level agent on the overall average and surpasses it on the harder test-challenge split, despite using a smaller open-source model. These results show that comprehensive, evolving contexts enable scalable, efficient, and self-improving LLM systems with low overhead.
PDF553October 7, 2025