AgentDevel: Replanteamiento de los Agentes de LLM Auto-Evolutivos como Ingeniería de Lanzamientos

Resumen

Los recientes avances en agentes de grandes modelos de lenguaje (LLM) se han centrado principalmente en incorporar mecanismos de auto-mejora dentro del agente o en realizar búsquedas sobre múltiples variantes concurrentes. Si bien estos enfoques pueden elevar las puntuaciones agregadas, a menudo producen trayectorias de mejora inestables y difíciles de auditar, lo que dificulta garantizar la no regresión o analizar fallos entre versiones. Replanteamos la mejora de agentes como ingeniería de versiones: los agentes se tratan como artefactos entregables, y la mejora se externaliza en un pipeline de lanzamiento consciente de regresiones. Presentamos AgentDevel, un pipeline de ingeniería de versiones que ejecuta iterativamente el agente actual, genera señales de calidad ciegas a la implementación a nivel de síntomas a partir de trazas de ejecución, sintetiza un único candidato a lanzamiento (RC) mediante diagnóstico ejecutable y lo promueve bajo una compuerta de validación centrada en cambios de estado. AgentDevel presenta tres diseños principales: (i) un crítico de LLM ciego a la implementación que caracteriza las apariencias de fallo sin acceder a los internos del agente, (ii) un diagnóstico ejecutable basado en scripts que agrega patrones de síntomas dominantes y produce especificaciones de ingeniería auditables, y (iii) una compuerta de validación centrada en cambios de estado que prioriza las regresiones de paso a fallo y las correcciones de fallo a paso como evidencia de primer orden. A diferencia de la búsqueda basada en poblaciones o el auto-refinamiento interno del agente, AgentDevel mantiene una única línea de versión canónica y enfatiza la no regresión como objetivo principal. Los experimentos en benchmarks con alta carga de ejecución demuestran que AgentDevel produce mejoras estables con significativamente menos regresiones, generando artefactos reproducibles y auditables. En general, AgentDevel proporciona una disciplina de desarrollo práctica para construir, depurar y lanzar agentes de LLM como desarrollo de software.

English

Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.

AgentDevel: Replanteamiento de los Agentes de LLM Auto-Evolutivos como Ingeniería de Lanzamientos

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

Resumen

Support