AgentDevel: Umdeutung selbstentwickelnder LLM-Agenten als Release Engineering

papers.abstract

Jüngste Fortschritte bei Agenten auf Basis großer Sprachmodelle (LLM) konzentrierten sich weitgehend darauf, Selbstverbesserungsmechanismen innerhalb des Agenten zu integrieren oder viele parallele Varianten zu durchsuchen. Obwohl diese Ansätze die Gesamtleistungswerte steigern können, führen sie oft zu instabilen und schwer nachvollziehbaren Verbesserungspfaden, was die Gewährleistung von Nicht-Regression oder die Analyse von Fehlern über Versionen hinweg erschwert. Wir formulieren die Agentenverbesserung als Release-Engineering neu: Agenten werden als auslieferbare Artefakte betrachtet, und die Verbesserung wird in eine regressionsbewusste Release-Pipeline externalisiert. Wir stellen AgentDevel vor, eine Release-Engineering-Pipeline, die iterativ den aktuellen Agenten ausführt, implementierungsblinde, symptombezogene Qualitätssignale aus Ausführungsspuren erzeugt, einen einzigen Release-Kandidaten (RC) durch ausführbare Diagnose synthetisiert und diesen unter flip-zentrierter Freigabesteuerung promoted. AgentDevel zeichnet sich durch drei Kerndesigns aus: (i) einen implementierungsblinden LLM-Kritiker, der Fehlererscheinungen charakterisiert, ohne auf die Interna des Agenten zuzugreifen, (ii) skriptbasierte, ausführbare Diagnose, die dominante Symptommuster aggregiert und nachvollziehbare Engineering-Spezifikationen erzeugt, und (iii) flip-zentrierte Freigabesteuerung, die Pass-zu-Fail-Regressionen und Fail-zu-Pass-Korrekturen als erstklassige Evidenz priorisiert. Im Gegensatz zu populationsbasierten Suchverfahren oder agenteninterner Selbstverbesserung pflegt AgentDevel eine einzige kanonische Versionslinie und betont Nicht-Regression als primäres Ziel. Experimente mit ausführungsintensiven Benchmarks zeigen, dass AgentDevel stabile Verbesserungen mit deutlich weniger Regressionen erzielt und dabei reproduzierbare, überprüfbare Artefakte produziert. Insgesamt bietet AgentDevel eine praktische Entwicklungsdisziplin zum Bauen, Debuggen und Ausliefern von LLM-Agenten als Softwareentwicklung.

English

Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.

AgentDevel: Umdeutung selbstentwickelnder LLM-Agenten als Release Engineering

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

papers.abstract

Support