Live-SWE-agent: Могут ли программные инженерные агенты саморазвиваться в реальном времени?

Аннотация

Крупные языковые модели (LLM) трансформируют практически все отрасли, включая разработку программного обеспечения. В последние годы было предложено множество агентов на основе LLM для решения реальных программных задач. Такие программные агенты обычно оснащены набором инструментов для программирования и могут автономно принимать решения о следующих действиях, формируя полные траектории для решения сквозных программных задач. Несмотря на перспективность, они обычно требуют специальной разработки и могут быть неоптимальными, поскольку исчерпывающий поиск во всем пространстве проектирования каркаса агента может быть чрезвычайно сложным и затратным. Принимая во внимание, что программные агенты по своей сути являются программным обеспечением, которое можно дополнительно улучшать/модифицировать, исследователи недавно предложили ряд самоулучшающихся программных агентов, включая Машину Дарвина-Гёделя (DGM). В то же время такие самоулучшающиеся агенты требуют затратного офлайн-обучения на конкретных бенчмарках и могут плохо обобщаться на различные LLM или бенчмарки. В данной статье мы предлагаем Live-SWE-agent — первого живого программного агента, который может автономно и непрерывно эволюционировать на лету во время выполнения при решении реальных программных задач. Конкретно, Live-SWE-agent начинается с самого базового каркаса агента, имеющего доступ только к bash-инструментам (например, mini-SWE-agent), и автономно развивает собственную реализацию каркаса в процессе решения реальных программных задач. Наша оценка на широко изучаемом бенчмарке SWE-bench Verified показывает, что Live-SWE-agent достигает впечатляющего показателя решения задач в 75.4% без масштабирования во время тестирования, превосходя все существующие программные агенты с открытым исходным кодом и приближаясь к производительности лучшего проприетарного решения. Более того, Live-SWE-agent превосходит передовые программные агенты, созданные вручную, на недавнем бенчмарке SWE-Bench Pro, достигая наилучшего известного показателя решения задач в 45.8%.

English

Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.