GSO: Anspruchsvolle Software-Optimierungsaufgaben zur Bewertung von SWE-Agenten

papers.abstract

Die Entwicklung von Hochleistungssoftware ist eine komplexe Aufgabe, die spezialisiertes Fachwissen erfordert. Wir stellen GSO vor, einen Benchmark zur Bewertung der Fähigkeiten von Sprachmodellen bei der Entwicklung von Hochleistungssoftware. Wir entwickeln eine automatisierte Pipeline, die Leistungstests generiert und ausführt, um Repository-Commit-Historien zu analysieren und 102 anspruchsvolle Optimierungsaufgaben über 10 Codebasen hinweg zu identifizieren, die verschiedene Domänen und Programmiersprachen abdecken. Ein Agent erhält eine Codebasis und einen Leistungstest als präzise Spezifikation und hat die Aufgabe, die Laufzeiteffizienz zu verbessern, die anhand der Optimierung durch erfahrene Entwickler gemessen wird. Unsere quantitative Auswertung zeigt, dass führende SWE-Agents erhebliche Schwierigkeiten haben und eine Erfolgsquote von weniger als 5 % erreichen, mit nur begrenzten Verbesserungen selbst bei Skalierung zur Inferenzzeit. Unsere qualitative Analyse identifiziert zentrale Fehlermodi, darunter Schwierigkeiten mit Low-Level-Sprachen, die Anwendung von trägen Optimierungsstrategien und Herausforderungen bei der präzisen Lokalisierung von Engpässen. Wir veröffentlichen den Code und die Artefakte unseres Benchmarks zusammen mit Agenten-Trajektorien, um zukünftige Forschung zu ermöglichen.

English

Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models' capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.

GSO: Anspruchsvolle Software-Optimierungsaufgaben zur Bewertung von SWE-Agenten

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

papers.abstract

Support