Live-SWE-agent: Os Agentes de Engenharia de Software Podem Evoluir por Conta Própria em Tempo Real?

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão a remodelar quase todas as indústrias, incluindo a engenharia de software. Nos últimos anos, foram propostos vários agentes baseados em LLMs para resolver problemas de software do mundo real. Estes agentes de software são tipicamente equipados com um conjunto de ferramentas de programação e podem decidir autonomamente as próximas ações para formar trajetórias completas para resolver tarefas de software de ponta a ponta. Embora sejam promissores, normalmente exigem um design dedicado e podem ainda ser subótimas, uma vez que pode ser extremamente desafiante e dispendioso esgotar todo o espaço de design de *scaffold* do agente. Reconhecendo que os agentes de software são inerentemente software que pode ser posteriormente refinado/modificado, os investigadores propuseram recentemente vários agentes de software com capacidade de auto-aprimoramento, incluindo a Máquina de Darwin-Gödel (DGM). Entretanto, estes agentes de auto-aprimoramento exigem um treino offline dispendioso em *benchmarks* específicos e podem não generalizar bem entre diferentes LLMs ou *benchmarks*. Neste artigo, propomos o Live-SWE-agent, o primeiro agente de software *live* que pode evoluir-se de forma autónoma e contínua *on-the-fly* durante o tempo de execução, ao resolver problemas de software do mundo real. Mais especificamente, o Live-SWE-agent começa com o *scaffold* de agente mais básico, com acesso apenas a ferramentas de *bash* (por exemplo, mini-SWE-agent), e evolui autonomamente a sua própria implementação de *scaffold* enquanto resolve problemas de software do mundo real. A nossa avaliação no amplamente estudado *benchmark* SWE-bench Verified mostra que o Live-SWE-agent pode alcançar uma impressionante taxa de resolução de 75,4% sem escalamento no tempo de teste, superando todos os agentes de software *open-source* existentes e aproximando-se do desempenho da melhor solução proprietária. Além disso, o Live-SWE-agent supera os agentes de software mais avançados, desenhados manualmente, no recente *benchmark* SWE-Bench Pro, alcançando a melhor taxa de resolução conhecida de 45,8%.

English

Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.