Agentische Kontextentwicklung: Entwicklung von Kontexten für sich selbst verbessernde Sprachmodelle

papers.abstract

Große Sprachmodelle (LLMs) wie Agenten und domänenspezifische Reasoning-Systeme setzen zunehmend auf Kontextanpassung – die Modifikation von Eingaben mit Anweisungen, Strategien oder Beweisen, anstatt Gewichtsaktualisierungen. Bisherige Ansätze verbessern zwar die Benutzerfreundlichkeit, leiden jedoch oft unter Kürzungsverzerrung, die domänenspezifische Erkenntnisse zugunsten prägnanter Zusammenfassungen vernachlässigt, sowie unter Kontextkollaps, bei dem iteratives Umschreiben Details im Laufe der Zeit verschlechtert. Aufbauend auf dem adaptiven Gedächtnis, das durch Dynamic Cheatsheet eingeführt wurde, präsentieren wir ACE (Agentic Context Engineering), ein Framework, das Kontexte als sich entwickelnde Playbooks behandelt, die Strategien durch einen modularen Prozess von Generierung, Reflexion und Kuratierung sammeln, verfeinern und organisieren. ACE verhindert den Kollaps durch strukturierte, inkrementelle Aktualisierungen, die detailliertes Wissen bewahren und mit Langzeitkontextmodellen skalieren. In Benchmarks für Agenten und domänenspezifische Anwendungen optimiert ACE Kontexte sowohl offline (z.B. Systemprompts) als auch online (z.B. Agentengedächtnis) und übertrifft dabei konsequent starke Baselines: +10,6 % bei Agenten und +8,6 % im Finanzbereich, während gleichzeitig die Anpassungslatenz und die Rollout-Kosten deutlich reduziert werden. Bemerkenswerterweise konnte ACE effektiv ohne überwachte Beschriftungen adaptieren, indem es natürliches Ausführungsfeedback nutzte. Auf der AppWorld-Rangliste erreicht ACE den durchschnittlichen Gesamtwert des führenden Produktionsagenten und übertrifft ihn im schwierigeren Test-Challenge-Split, obwohl ein kleineres Open-Source-Modell verwendet wird. Diese Ergebnisse zeigen, dass umfassende, sich entwickelnde Kontexte skalierbare, effiziente und selbstverbessernde LLM-Systeme mit geringem Overhead ermöglichen.

English

Large language model (LLM) applications such as agents and domain-specific reasoning increasingly rely on context adaptation -- modifying inputs with instructions, strategies, or evidence, rather than weight updates. Prior approaches improve usability but often suffer from brevity bias, which drops domain insights for concise summaries, and from context collapse, where iterative rewriting erodes details over time. Building on the adaptive memory introduced by Dynamic Cheatsheet, we introduce ACE (Agentic Context Engineering), a framework that treats contexts as evolving playbooks that accumulate, refine, and organize strategies through a modular process of generation, reflection, and curation. ACE prevents collapse with structured, incremental updates that preserve detailed knowledge and scale with long-context models. Across agent and domain-specific benchmarks, ACE optimizes contexts both offline (e.g., system prompts) and online (e.g., agent memory), consistently outperforming strong baselines: +10.6% on agents and +8.6% on finance, while significantly reducing adaptation latency and rollout cost. Notably, ACE could adapt effectively without labeled supervision and instead by leveraging natural execution feedback. On the AppWorld leaderboard, ACE matches the top-ranked production-level agent on the overall average and surpasses it on the harder test-challenge split, despite using a smaller open-source model. These results show that comprehensive, evolving contexts enable scalable, efficient, and self-improving LLM systems with low overhead.

Agentische Kontextentwicklung: Entwicklung von Kontexten für sich selbst verbessernde Sprachmodelle

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

papers.abstract

Support