ChatPaper.aiChatPaper

AgentDevel: Переосмысление саморазвивающихся LLM-агентов как инженерии выпуска

AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

January 8, 2026
Авторы: Di Zhang
cs.AI

Аннотация

Последние достижения в области агентов на основе больших языковых моделей (LLM) в значительной степени были сосредоточены на внедрении механизмов самоулучшения внутрь агента или на поиске среди множества параллельных вариантов. Хотя эти подходы могут повысить совокупные показатели, они часто приводят к нестабильным и сложным для аудита траекториям улучшения, что затрудняет гарантирование отсутствия регрессий или анализ сбоев между версиями. Мы переосмысливаем улучшение агента как релз-инжиниринг: агенты рассматриваются как готовые к поставке артефакты, а улучшение выносится во внешний, регрессионно-ориентированный конвейер выпуска версий. Мы представляем AgentDevel — конвейер релз-инжиниринга, который итеративно запускает текущего агента, генерирует независимые от реализации сигналы качества на уровне симптомов из трасс выполнения, синтезирует единого кандидата на выпуск (RC) с помощью исполняемой диагностики и продвигает его через процедуру контроля, ориентированную на изменения статуса тестов. AgentDevel включает три ключевых принципа: (i) LLM-критик, не зависящий от реализации, который характеризует проявления сбоев без доступа к внутренней структуре агента, (ii) исполняемая диагностика на основе скриптов, которая агрегирует преобладающие шаблоны симптомов и создает проверяемые технические спецификации, и (iii) контроль, ориентированный на изменения статуса тестов, который рассматривает регрессии (прохождение -> сбой) и исправления (сбой -> прохождение) как первостепенные свидетельства. В отличие от популяционного поиска или самоусовершенствования внутри агента, AgentDevel поддерживает единую каноническую линию версий и подчеркивает отсутствие регрессий как основную цель. Эксперименты на задачах, требующих интенсивного выполнения, демонстрируют, что AgentDevel обеспечивает стабильные улучшения со значительно меньшим количеством регрессий, одновременно создавая воспроизводимые и проверяемые артефакты. В целом, AgentDevel предлагает практическую дисциплину разработки для создания, отладки и выпуска LLM-агентов как программного обеспечения.
English
Recent progress in large language model (LLM) agents has largely focused on embedding self-improvement mechanisms inside the agent or searching over many concurrent variants. While these approaches can raise aggregate scores, they often yield unstable and hard-to-audit improvement trajectories, making it difficult to guarantee non-regression or to reason about failures across versions. We reframe agent improvement as release engineering: agents are treated as shippable artifacts, and improvement is externalized into a regression-aware release pipeline. We introduce AgentDevel, a release engineering pipeline that iteratively runs the current agent, produces implementation-blind, symptom-level quality signals from execution traces, synthesizes a single release candidate (RC) via executable diagnosis, and promotes it under flip-centered gating. AgentDevel features three core designs: (i) an implementation-blind LLM critic that characterizes failure appearances without accessing agent internals, (ii) script-based executable diagnosis that aggregates dominant symptom patterns and produces auditable engineering specifications, and (iii) flip-centered gating that prioritizes pass to fail regressions and fail to pass fixes as first-class evidence. Unlike population-based search or in-agent self-refinement, AgentDevel maintains a single canonical version line and emphasizes non-regression as a primary objective. Experiments on execution-heavy benchmarks demonstrate that AgentDevel yields stable improvements with significantly fewer regressions while producing reproducible, auditable artifacts. Overall, AgentDevel provides a practical development discipline for building, debugging, and releasing LLM agents as software development.
PDF11January 10, 2026