ChatPaper.aiChatPaper

SWE-Bench Pro: Können KI-Agenten langfristige Softwareentwicklungsaufgaben lösen?

SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

September 21, 2025
papers.authors: Xiang Deng, Jeff Da, Edwin Pan, Yannis Yiming He, Charles Ide, Kanak Garg, Niklas Lauffer, Andrew Park, Nitin Pasari, Chetan Rane, Karmini Sampath, Maya Krishnan, Srivatsa Kundurthy, Sean Hendryx, Zifan Wang, Chen Bo Calvin Zhang, Noah Jacobson, Bing Liu, Brad Kenstler
cs.AI

papers.abstract

Wir stellen SWE-Bench Pro vor, einen deutlich anspruchsvolleren Benchmark, der auf den Best Practices von SWE-BENCH [25] aufbaut, jedoch explizit darauf ausgelegt ist, realistische, komplexe, unternehmensweite Probleme zu erfassen, die über den Rahmen von SWE-BENCH hinausgehen. SWE-BENCH PRO enthält 1.865 Aufgaben, die aus einer vielfältigen Auswahl von 41 aktiv gepflegten Repositories stammen, die Geschäftsanwendungen, B2B-Dienste und Entwicklertools abdecken. Der Benchmark ist in einen öffentlichen Satz mit freiem Zugang zu Aufgaben aus 11 Repositories, einen zurückgehaltenen Satz von 12 Repositories und einen kommerziellen Satz von 18 proprietären Repositories unterteilt, für die wir formelle Partnerschaftsvereinbarungen mit Startups in der Frühphase haben. Die Aufgaben im zurückgehaltenen und im kommerziellen Satz sind nicht öffentlich zugänglich, aber wir veröffentlichen Ergebnisse zum kommerziellen Satz. Unser Benchmark umfasst langfristige Aufgaben, die für einen professionellen Softwareentwickler Stunden bis Tage in Anspruch nehmen können und oft Patches über mehrere Dateien sowie umfangreiche Codeänderungen erfordern. Alle Aufgaben sind von Menschen verifiziert und mit ausreichendem Kontext angereichert, um die Lösbarkeit sicherzustellen. In unserer Bewertung weit verbreiteter Codierungsmodelle unter einem einheitlichen Rahmen beobachten wir, dass ihre Leistung bei SWE-Bench PRO unter 25 % (Pass@1) bleibt, wobei GPT-5 mit 23,3 % den bisher höchsten Wert erzielt. Um diese Grenzen besser zu verstehen, clustern wir die in den gesammelten Agenten-Trajektorien beobachteten Fehlermodi, um die Fehlermuster aktueller Modelle klarer zu charakterisieren. Insgesamt bietet SWE-BENCH PRO ein kontaminationsresistentes Testumfeld, das die Komplexität und Vielfalt der realen Softwareentwicklung treuer abbildet und das Streben nach wirklich autonomen Softwareentwicklungsagenten auf professionellem Niveau vorantreibt.
English
We introduce SWE-Bench Pro, a substantially more challenging benchmark that builds upon the best practices of SWE-BENCH [25], but is explicitly designed to capture realistic, complex, enterprise-level problems beyond the scope of SWE-BENCH. SWE-BENCH PRO contains 1,865 problems sourced from a diverse set of 41 actively maintained repositories spanning business applications, B2B services, and developer tools. The benchmark is partitioned into a public set with open access to problems sourced from 11 repositories, a held-out set of 12 repositories and a commercial set of 18 proprietary repositories where we have formal partnership agreements with early-stage startups. Problems in the held-out and the commercial set are not publicly accessible, but we release results on the commercial set. Our benchmark features long-horizon tasks that may require hours to days for a professional software engineer to complete, often involving patches across multiple files and substantial code modifications. All tasks are human-verified and augmented with sufficient context to ensure resolvability. In our evaluation of widely used coding models, under a unified scaffold, we observe that their performance on SWE-Bench PRO remains below 25% (Pass@1), with GPT-5 achieving the highest score to date at 23.3%. To better understand these limitations, we cluster the failure modes observed in the collected agent trajectories for a clearer characterization of the error patterns exhibited by current models. Overall, SWE-BENCH PRO provides a contamination-resistant testbed that more faithfully captures the complexity and diversity of real-world software development, advancing the pursuit of truly autonomous software engineering agents at a professional level.
PDF193September 23, 2025