ChatPaper.aiChatPaper

Live-SWE-Agent: Können Softwareentwicklungs-Agenten sich selbstständig im laufenden Betrieb weiterentwickeln?

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

November 17, 2025
papers.authors: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) verändern nahezu alle Branchen, einschließlich der Softwareentwicklung. In den letzten Jahren wurden zahlreiche LLM-Agenten entwickelt, um praktische Softwareprobleme zu lösen. Solche Softwareagenten sind typischerweise mit einer Reihe von Codierungswerkzeugen ausgestattet und können autonom entscheiden, welche nächsten Aktionen ausgeführt werden sollen, um vollständige Handlungsabläufe zur Lösung end-to-end Softwareaufgaben zu bilden. Obwohl vielversprechend, erfordern sie in der Regel einen speziellen Entwurf und können dennoch suboptimal sein, da es äußerst anspruchsvoll und kostspielig ist, den gesamten Designraum für Agentengerüste vollständig zu erschließen. In der Erkenntnis, dass Softwareagenten inhärent selbst Software sind, die weiter verfeinert/verändert werden kann, haben Forscher kürzlich eine Reihe selbstverbessernder Softwareagenten vorgeschlagen, darunter die Darwin-Gödel-Maschine (DGM). Allerdings erfordern solche selbstverbessernden Agenten kostspieliges Offline-Training an spezifischen Benchmarks und generalisieren möglicherweise nicht gut über verschiedene LLMs oder Benchmarks hinweg. In diesem Artikel stellen wir Live-SWE-agent vor, den ersten Live-Softwareagenten, der sich autonom und kontinuierlich während der Laufzeit bei der Lösung praktischer Softwareprobleme weiterentwickeln kann. Konkret beginnt Live-SWE-agent mit dem grundlegendsten Agentengerüst, das nur Zugriff auf Bash-Werkzeuge hat (z.B. mini-SWE-agent), und entwickelt seine eigene Gerüstimplementierung autonom weiter, während er reale Softwareprobleme löst. Unsere Auswertung auf dem weit verbreiteten SWE-bench Verified Benchmark zeigt, dass Live-SWE-agent eine beeindruckende Lösungsrate von 75,4% ohne Skalierung zur Testzeit erreichen kann, womit er alle bestehenden Open-Source-Softwareagenten übertrifft und an die Leistung der besten proprietären Lösung heranreicht. Darüber hinaus übertrifft Live-SWE-agent state-of-the-art manuell entwickelte Softwareagenten auf dem neueren SWE-Bench Pro Benchmark und erreicht die bisher beste bekannte Lösungsrate von 45,8%.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
PDF72December 1, 2025