ChatPaper.aiChatPaper

AgentDevel: Riconcettualizzare gli Agenti LLM Auto-Evolutivi come Ingegneria del Rilascio

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

January 8, 2026
Autori: Di Zhang
cs.AI

Abstract

I recenti progressi negli agenti basati su grandi modelli linguistici (LLM) si sono concentrati principalmente sull'incorporazione di meccanismi di auto-miglioramento all'interno dell'agente o sulla ricerca tra molte varianti concorrenti. Sebbene questi approcci possano aumentare i punteggi aggregati, spesso producono traiettorie di miglioramento instabili e difficili da verificare, rendendo complesso garantire l'assenza di regressioni o analizzare i guasti tra le versioni. Noi riformuliamo il miglioramento degli agenti come ingegneria del rilascio: gli agenti sono trattati come artefatti distribuibili e il miglioramento viene esternalizzato in una pipeline di rilascio consapevole delle regressioni. Introduciamo AgentDevel, una pipeline di ingegneria del rilascio che esegue iterativamente l'agente corrente, produce segnali di qualità a livello sintomatico e indipendenti dall'implementazione dalle tracce di esecuzione, sintetizza un singolo candidato al rilascio (RC) tramite diagnosi eseguibile e lo promuove sotto un sistema di gatekeeping centrato sui ribaltamenti. AgentDevel presenta tre progetti fondamentali: (i) un critico LLM indipendente dall'implementazione che caratterizza le manifestazioni di fallimento senza accedere agli interni dell'agente, (ii) una diagnosi eseguibile basata su script che aggrega i pattern sintomatici dominanti e produce specifiche ingegneristiche verificabili, e (iii) un gatekeeping centrato sui ribaltamenti che prioritizza le regressioni da passaggio a fallimento e le correzioni da fallimento a passaggio come evidenza di prima classe. A differenza della ricerca basata su popolazione o dell'auto-affinamento interno all'agente, AgentDevel mantiene una singola linea di versione canonica ed enfatizza la non-regressione come obiettivo primario. Esperimenti su benchmark con forte componente esecutiva dimostrano che AgentDevel produce miglioramenti stabili con significativamente meno regressioni, generando al contempo artefatti riproducibili e verificabili. Nel complesso, AgentDevel fornisce una disciplina di sviluppo pratica per costruire, debuggare e rilasciare agenti LLM come nello sviluppo software.
English
Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.
PDF32March 17, 2026