ChatPaper.aiChatPaper

라이브-SWE-에이전트: 소프트웨어 엔지니어링 에이전트는 실시간으로 자가 진화할 수 있는가?

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

November 17, 2025
저자: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI

초록

대규모 언어 모델(LLM)은 소프트웨어 공학을 포함한 거의 모든 산업을 재편하고 있습니다. 최근 몇 년간 실제 소프트웨어 문제를 해결하기 위해 여러 LLM 에이전트가 제안되었습니다. 이러한 소프트웨어 에이전트는 일반적으로 일련의 코딩 도구를 갖추고 있으며, 엔드투엔드 소프트웨어 작업을 해결하기 위한 완전한 실행 경로를 구성하기 위해 다음 행동을 자율적으로 결정할 수 있습니다. 유망하지만, 일반적으로 전용 설계가 필요하며 에이전트 스캐폴드 설계 공간 전체를 탐색하는 것이 매우 어렵고 비용이 많이 들기 때문에 여전히 최적이 아닐 수 있습니다. 소프트웨어 에이전트 자체가 추가로 개선/수정 가능한 소프트웨어라는 점을 인식한 연구자들은 최근 Darwin-Gödel Machine(DGM)을 포함한 여러 자가 진화 소프트웨어 에이전트를 제안했습니다. 한편, 이러한 자가 진화 에이전트는 특정 벤치마크에 대한 고비용의 오프라인 훈련이 필요하며 서로 다른 LLM이나 벤치마크 간에 잘 일반화되지 않을 수 있습니다. 본 논문에서는 실제 소프트웨어 문제를 해결하는 동안 런타임 중에 자율적으로 지속적으로 즉시 진화할 수 있는 최초의 라이브 소프트웨어 에이전트인 Live-SWE-agent를 제안합니다. 보다 구체적으로, Live-SWE-agent는 bash 도구(예: mini-SWE-agent)에만 접근할 수 있는 가장 기본적인 에이전트 스캐폴드로 시작하여 실제 소프트웨어 문제를 해결하면서 자체 스캐폴드 구현을 자율적으로 진화시킵니다. 널리 연구된 SWE-bench Verified 벤치마크에 대한 평가 결과, Live-SWE-agent는 테스트 시간 스케일링 없이도 75.4%라는 인상적인 해결율을 달성하여 기존의 모든 오픈소스 소프트웨어 에이전트를 능가하고 최고의 독점 솔루션 성능에 근접했습니다. 더욱이 Live-SWE-agent는 최근 SWE-Bench Pro 벤치마크에서 최첨단 수동 제작 소프트웨어 에이전트를 능가하며 45.8%라는 가장 높은 해결율을 기록했습니다.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
PDF72December 1, 2025