AgentDevel: Zelf-evoluerende LLM-agenten herkaderd als release engineering

Samenvatting

Recente vooruitgang in grote-taalmodel (LLM) agenten heeft zich grotendeels gericht op het inbouwen van zelfverbeteringsmechanismen in de agent of op het zoeken over vele gelijktijdige varianten. Hoewel deze benaderingen de algemene scores kunnen verhogen, leveren ze vaak onstabiele en moeilijk te controleren verbeteringstrajecten op, waardoor het lastig is om non-regressie te garanderen of om fouten over versies heen te kunnen analyseren. Wij herformuleren agentverbetering als release engineering: agenten worden behandeld als uit te leveren artefacten, en verbetering wordt geëxternaliseerd in een op regressie gerichte releasepijplijn. Wij introduceren AgentDevel, een release-engineeringpijplijn die iteratief de huidige agent uitvoert, implementatieblinde, symptoomniveau-kwaliteitssignalen produceert uit uitvoeringstraces, een enkele releasekandidaat (RC) synthetiseert via uitvoerbare diagnose, en deze promoveert onder flip-gerichte gating. AgentDevel kent drie kernontwerpen: (i) een implementatieblinde LLM-criticus die foutverschijningen karakteriseert zonder toegang tot de interne werking van de agent, (ii) op scripts gebaseerde uitvoerbare diagnose die dominante symptoompatronen aggregeert en controleerbare technische specificaties produceert, en (iii) flip-gerichte gating die regressies van geslaagd naar mislukt, en fixes van mislukt naar geslaagd als eersteklas bewijs prioriteert. In tegenstelling tot populatiegebaseerd zoeken of zelfverfijning binnen de agent, handhaaft AgentDevel een enkele canonieke versielijn en benadrukt het non-regressie als primair doel. Experimenten op uitvoeringsintensieve benchmarks tonen aan dat AgentDevel stabiele verbeteringen oplevert met aanzienlijk minder regressies, terwijl het reproduceerbare, controleerbare artefacten produceert. Over het geheel genomen biedt AgentDevel een praktische ontwikkelingsdiscipline voor het bouwen, debuggen en releasen van LLM-agenten als softwareontwikkeling.

English

Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.

AgentDevel: Zelf-evoluerende LLM-agenten herkaderd als release engineering

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

Samenvatting

Support