ChatPaper.aiChatPaper

Live-SWE-agent: ¿Pueden los agentes de ingeniería de software autoevolucionar sobre la marcha?

Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

November 17, 2025
Autores: Chunqiu Steven Xia, Zhe Wang, Yan Yang, Yuxiang Wei, Lingming Zhang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) están transformando casi todas las industrias, incluida la ingeniería de software. En los últimos años, se han propuesto varios agentes basados en LLM para resolver problemas de software del mundo real. Estos agentes de software suelen estar equipados con un conjunto de herramientas de codificación y pueden decidir autónomamente las siguientes acciones para formar trayectorias completas que resuelvan tareas de software de extremo a extremo. Si bien son prometedores, generalmente requieren un diseño dedicado y aún pueden ser subóptimos, ya que puede ser extremadamente desafiante y costoso explorar exhaustivamente todo el espacio de diseño de la estructura del agente. Reconociendo que los agentes de software son inherentemente software que puede refinarse/modificarse, los investigadores han propuesto recientemente varios agentes de software con capacidad de auto-mejora, incluyendo la Máquina Darwin-Gödel (DGM). Sin embargo, estos agentes auto-mejorables requieren costosos entrenamientos offline en benchmarks específicos y pueden no generalizar bien entre diferentes LLM o benchmarks. En este artículo, proponemos Live-SWE-agent, el primer agente de software en vivo que puede evolucionar autónoma y continuamente sobre la marcha durante el tiempo de ejecución mientras resuelve problemas de software del mundo real. Más específicamente, Live-SWE-agent comienza con la estructura de agente más básica con acceso solo a herramientas de bash (por ejemplo, mini-SWE-agent), y evoluciona autónomamente la implementación de su propia estructura mientras resuelve problemas de software reales. Nuestra evaluación en el ampliamente estudiado benchmark SWE-bench Verified muestra que Live-SWE-agent puede lograr una impresionante tasa de resolución del 75.4% sin escalado en tiempo de prueba, superando a todos los agentes de software de código abierto existentes y acercándose al rendimiento de la mejor solución propietaria. Además, Live-SWE-agent supera a los agentes de software creados manualmente más avanzados en el reciente benchmark SWE-Bench Pro, logrando la mejor tasa de resolución conocida del 45.8%.
English
Large Language Models (LLMs) are reshaping almost all industries, including software engineering. In recent years, a number of LLM agents have been proposed to solve real-world software problems. Such software agents are typically equipped with a suite of coding tools and can autonomously decide the next actions to form complete trajectories to solve end-to-end software tasks. While promising, they typically require dedicated design and may still be suboptimal, since it can be extremely challenging and costly to exhaust the entire agent scaffold design space. Recognizing that software agents are inherently software themselves that can be further refined/modified, researchers have proposed a number of self-improving software agents recently, including the Darwin-Gödel Machine (DGM). Meanwhile, such self-improving agents require costly offline training on specific benchmarks and may not generalize well across different LLMs or benchmarks. In this paper, we propose Live-SWE-agent, the first live software agent that can autonomously and continuously evolve itself on-the-fly during runtime when solving real-world software problems. More specifically, Live-SWE-agent starts with the most basic agent scaffold with only access to bash tools (e.g., mini-SWE-agent), and autonomously evolves its own scaffold implementation while solving real-world software problems. Our evaluation on the widely studied SWE-bench Verified benchmark shows that Live-SWE-agent can achieve an impressive solve rate of 75.4% without test-time scaling, outperforming all existing open-source software agents and approaching the performance of the best proprietary solution. Moreover, Live-SWE-agent outperforms state-of-the-art manually crafted software agents on the recent SWE-Bench Pro benchmark, achieving the best-known solve rate of 45.8%.
PDF72December 1, 2025