AgentDevel: Reenquadrando Agentes de LLM Auto-Evolutivos como Engenharia de Release

Resumo

Os avanços recentes em agentes de grandes modelos de linguagem (LLM) têm-se focado principalmente na incorporação de mecanismos de autoaperfeiçoamento no agente ou na busca por muitas variantes concorrentes. Embora essas abordagens possam elevar as pontuações agregadas, frequentemente produzem trajetórias de melhoria instáveis e de difícil auditoria, dificultando a garantia de não-regressão ou a análise de falhas entre versões. Reformulamos a melhoria de agentes como engenharia de release: os agentes são tratados como artefatos entregáveis, e a melhoria é externalizada em um pipeline de lançamento com consciência de regressão. Apresentamos o AgentDevel, um pipeline de engenharia de release que executa iterativamente o agente atual, produz sinais de qualidade cegos à implementação e baseados em sintomas a partir de traços de execução, sintetiza um único candidato a release (RC) via diagnóstico executável e o promove sob um critério de aprovação centrado em inversões. O AgentDevel apresenta três projetos centrais: (i) um crítico de LLM cego à implementação que caracteriza as aparências de falha sem acessar os internos do agente, (ii) diagnóstico executável baseado em script que agrega padrões de sintoma dominantes e produz especificações de engenharia auditáveis, e (iii) critério de aprovação centrado em inversões que prioriza regressões de aprovado para reprovado e correções de reprovado para aprovado como evidência de primeira classe. Diferente da busca baseada em população ou do autorrefinamento interno ao agente, o AgentDevel mantém uma única linha de versão canônica e enfatiza a não-regressão como objetivo primário. Experimentos em benchmarks com forte componente de execução demonstram que o AgentDevel produz melhorias estáveis com significativamente menos regressões, gerando artefatos reproduzíveis e auditáveis. No geral, o AgentDevel fornece uma disciplina de desenvolvimento prática para construir, depurar e lançar agentes de LLM como desenvolvimento de software.

English

Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.

AgentDevel: Reenquadrando Agentes de LLM Auto-Evolutivos como Engenharia de Release

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

Resumo

Support