AgentDevel : Repenser les agents LLM auto-évolutifs comme une ingénierie de livraison
AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering
January 8, 2026
papers.authors: Di Zhang
cs.AI
papers.abstract
Les progrès récents dans les agents de grands modèles de langage (LLM) se sont principalement concentrés sur l'intégration de mécanismes d'auto-amélioration au sein de l'agent ou sur l'exploration de nombreuses variantes concurrentes. Bien que ces approches puissent améliorer les scores agrégés, elles produisent souvent des trajectoires d'amélioration instables et difficiles à auditer, rendant complexe la garantie de non-régression ou l'analyse des défaillances entre les versions. Nous reformulons l'amélioration des agents comme un problème d'ingénierie des versions : les agents sont traités comme des artefacts livrables, et l'amélioration est externalisée dans un pipeline de release sensible aux régressions. Nous présentons AgentDevel, un pipeline d'ingénierie des versions qui exécute itérativement l'agent actuel, produit des signaux de qualité aveugles à l'implémentation au niveau symptomatique à partir des traces d'exécution, synthétise un unique candidat de release (RC) via un diagnostic exécutable, et le promeut sous condition de validation centrée sur les basculements. AgentDevel comporte trois conceptions fondamentales : (i) un critique LLM aveugle à l'implémentation qui caractérise les apparences de défaillance sans accéder aux internes de l'agent, (ii) un diagnostic exécutable basé sur des scripts qui agrège les schémas symptomatiques dominants et produit des spécifications d'ingénierie auditables, et (iii) une validation centrée sur les basculements qui priorise les régressions (passage de succès à échec) et les corrections (passage d'échec à succès) comme preuves de premier ordre. Contrairement à la recherche basée sur une population ou à l'auto-affinement intégré à l'agent, AgentDevel maintient une unique lignée de versions canoniques et souligne la non-régression comme objectif principal. Les expériences sur des benchmarks à forte intensité d'exécution démontrent qu'AgentDevel produit des améliorations stables avec significativement moins de régressions tout en générant des artefacts reproductibles et auditables. Globalement, AgentDevel fournit une discipline de développement pratique pour construire, déboguer et livrer les agents LLM comme des logiciels.
English
Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.