ChatPaper.aiChatPaper

Live-SWE-agent: Gli agenti di ingegneria del software possono auto-evolversi al volo?

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

November 17, 2025
Autori: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI

Abstract

I Large Language Model (LLM) stanno rimodellando quasi tutti i settori, inclusa l'ingegneria del software. Negli ultimi anni, sono stati proposti numerosi agenti basati su LLM per risolvere problemi software del mondo reale. Tali agenti software sono tipicamente dotati di una suite di strumenti di codifica e possono decidere autonomamente le azioni successive per formare traiettorie complete e risolvere compiti software end-to-end. Sebbene promettenti, richiedono tipicamente una progettazione dedicata e potrebbero comunque essere subottimali, poiché esplorare esaustivamente l'intero spazio di progettazione dell'architettura dell'agente può essere estremamente impegnativo e costoso. Riconoscendo che gli agenti software sono intrinsecamente software essi stessi, che possono essere ulteriormente affinati/modificati, i ricercatori hanno recentemente proposto numerosi agenti software capaci di auto-miglioramento, incluso il Darwin-Gödel Machine (DGM). Tuttavia, tali agenti auto-miglioranti richiedono un costoso addestramento offline su benchmark specifici e potrebbero non generalizzare bene su diversi LLM o benchmark. In questo articolo, proponiamo Live-SWE-agent, il primo agente software "live" in grado di evolversi autonomamente e continuamente on-the-fly durante l'esecuzione, mentre risolve problemi software reali. Nello specifico, Live-SWE-agent inizia con l'architettura di agente più basilare, con accesso solamente a strumenti bash (ad esempio, mini-SWE-agent), ed evolve autonomamente la propria implementazione architetturale mentre risolve problemi software del mondo reale. La nostra valutazione sul noto benchmark SWE-bench Verified mostra che Live-SWE-agent può raggiungere un impressionante tasso di risoluzione del 75.4% senza scalabilità al momento del test, superando tutti gli agenti software open-source esistenti e avvicinandosi alle prestazioni della migliore soluzione proprietaria. Inoltre, Live-SWE-agent supera gli agenti software all'avanguardia progettati manualmente sul recente benchmark SWE-Bench Pro, raggiungendo il miglior tasso di risoluzione noto del 45.8%.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
PDF72December 1, 2025