ライブSWEエージェント:ソフトウェア工学エージェントはその場で自己進化できるか?
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
November 17, 2025
著者: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI
要旨
大規模言語モデル(LLM)は、ソフトウェア工学を含むほぼすべての産業を再構築しつつある。近年、現実世界のソフトウェア問題を解決するために、数多くのLLMエージェントが提案されてきた。このようなソフトウェアエージェントは通常、一連のコーディングツールを装備し、自律的に次のアクションを決定して完全な軌跡を形成し、エンドツーエンドのソフトウェアタスクを解決することができる。有望ではあるものの、エージェントのスキャフォールド設計空間全体を網羅することは極めて困難でコストがかかるため、これらは通常、専用の設計を必要とし、依然として最適ではない可能性がある。ソフトウェエージェントが本質的にさらに改良/修正可能なソフトウェアそのものであることを認識し、研究者らは最近、Darwin-Gödel Machine(DGM)を含む、数多くの自己改善型ソフトウェアエージェントを提案している。一方、このような自己改善型エージェントは、特定のベンチマークでの高コストなオフライントレーニングを必要とし、異なるLLMやベンチマーク間で十分に汎化しない可能性がある。本論文では、現実世界のソフトウェア問題を解決する際に、実行時に自律的かつ継続的に自己を進化させることができる、初のライブソフトウェアエージェントであるLive-SWE-agentを提案する。具体的には、Live-SWE-agentは、bashツールへのアクセスのみを備えた最も基本的なエージェントスキャフォールド(例:mini-SWE-agent)から開始し、現実世界のソフトウェア問題を解決しながら自身のスキャフォールド実装を自律的に進化させる。広く研究されているSWE-bench Verifiedベンチマークによる評価では、Live-SWE-agentがテスト時のスケーリングなしで75.4%という印象的な解決率を達成し、既存のすべてのオープンソースソフトウェアエージェントを上回り、最高のプロプライエタリソリューションの性能に迫ることを示している。さらに、Live-SWE-agentは、最近のSWE-Bench Proベンチマークにおいて、人手で精巧に作られた最先端のソフトウェアエージェントを上回り、既知最高の解決率である45.8%を達成した。
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.