Live-SWE-agent : Les agents de génie logiciel peuvent-ils évoluer dynamiquement en temps réel ?
Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
November 17, 2025
papers.authors: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) sont en train de remodeler presque toutes les industries, y compris le génie logiciel. Ces dernières années, plusieurs agents basés sur des LLM ont été proposés pour résoudre des problèmes logiciels réels. Ces agents logiciels sont généralement équipés d'une suite d'outils de codage et peuvent décider de manière autonome des actions suivantes pour former des trajectoires complètes afin de résoudre des tâches logicielles de bout en bout. Bien que prometteurs, ils nécessitent généralement une conception dédiée et peuvent encore être sous-optimaux, car il peut être extrêmement difficile et coûteux d'explorer exhaustivement l'espace de conception complet des échafaudages d'agents. Reconnaissant que les agents logiciels sont intrinsèquement des logiciels eux-mêmes qui peuvent être affinés/modifiés, les chercheurs ont récemment proposé un certain nombre d'agents logiciels auto-améliorants, notamment la Machine de Darwin-Gödel (DGM). Cependant, ces agents auto-améliorants nécessitent un apprentissage hors ligne coûteux sur des benchmarks spécifiques et peuvent ne pas bien généraliser à travers différents LLM ou benchmarks. Dans cet article, nous proposons Live-SWE-agent, le premier agent logiciel "vivant" capable d'évoluer de manière autonome et continue en temps réel pendant son exécution lors de la résolution de problèmes logiciels réels. Plus spécifiquement, Live-SWE-agent commence avec l'échafaudage d'agent le plus basique n'ayant accès qu'à des outils bash (par exemple, mini-SWE-agent), et fait évoluer de manière autonome sa propre implémentation d'échafaudage tout en résolvant des problèmes logiciels réels. Notre évaluation sur le benchmark largement étudié SWE-bench Verified montre que Live-SWE-agent peut atteindre un taux de résolution impressionnant de 75,4 % sans mise à l'échelle au moment du test, surpassant tous les agents logiciels open-source existants et approchant les performances de la meilleure solution propriétaire. De plus, Live-SWE-agent surpasse les agents logiciels artisanaux de pointe sur le récent benchmark SWE-Bench Pro, atteignant le meilleur taux de résolution connu de 45,8 %.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.