ChatPaper.aiChatPaper

Live-SWE-agent: Kunnen software-engineering-agenten zichzelf real-time ontwikkelen?

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

November 17, 2025
Auteurs: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hervormen vrijwel alle sectoren, inclusief software-engineering. De afgelopen jaren zijn er tal van LLM-agenten voorgesteld om real-world softwareproblemen op te lossen. Dergelijke software-agenten zijn doorgaans uitgerust met een reeks codeertools en kunnen autonoom beslissen over de volgende acties om complete trajecten te vormen voor het oplossen van end-to-end softwaretaken. Hoewel veelbelovend, vereisen ze meestal een specifiek ontwerp en kunnen ze nog steeds suboptimaal zijn, omdat het extreem uitdagend en kostbaar is om de volledige ontwerpruimte voor agent-scaffolds uit te putten. Omdat wordt erkend dat software-agenten inherent zelf software zijn die verder kunnen worden verfijnd/aangepast, hebben onderzoekers onlangs een aantal zelfverbeterende software-agenten voorgesteld, waaronder de Darwin-Gödel Machine (DGM). Tegelijkertijd vereisen dergelijke zelfverbeterende agenten kostbare offline training op specifieke benchmarks en generaliseren ze mogelijk niet goed over verschillende LLM's of benchmarks. In dit artikel stellen we Live-SWE-agent voor, de eerste live software-agent die zichzelf autonoom en continu on-the-fly kan evolueren tijdens runtime bij het oplossen van real-world softwareproblemen. Meer specifiek begint Live-SWE-agent met de meest basale agent-scaffold met alleen toegang tot bash-tools (bijv. mini-SWE-agent), en evolueert autonoom zijn eigen scaffold-implementatie terwijl het real-world softwareproblemen oplost. Onze evaluatie op de breed bestudeerde SWE-bench Verified benchmark toont aan dat Live-SWE-agent een indrukwekkend oplossingspercentage van 75,4% kan bereiken zonder schaling tijdens tests, wat beter presteert dan alle bestaande open-source software-agenten en de prestaties van de beste propriëtaire oplossing benadert. Bovendien presteert Live-SWE-agent beter dan state-of-the-art handmatig vervaardigde software-agenten op de recente SWE-Bench Pro benchmark, met het beste bekende oplossingspercentage van 45,8%.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
PDF72December 1, 2025