GSO: Anspruchsvolle Software-Optimierungsaufgaben zur Bewertung von SWE-Agenten
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents
May 29, 2025
Autoren: Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica
cs.AI
Zusammenfassung
Die Entwicklung von Hochleistungssoftware ist eine komplexe Aufgabe, die spezialisiertes Fachwissen erfordert. Wir stellen GSO vor, einen Benchmark zur Bewertung der Fähigkeiten von Sprachmodellen bei der Entwicklung von Hochleistungssoftware. Wir entwickeln eine automatisierte Pipeline, die Leistungstests generiert und ausführt, um Repository-Commit-Historien zu analysieren und 102 anspruchsvolle Optimierungsaufgaben über 10 Codebasen hinweg zu identifizieren, die verschiedene Domänen und Programmiersprachen abdecken. Ein Agent erhält eine Codebasis und einen Leistungstest als präzise Spezifikation und hat die Aufgabe, die Laufzeiteffizienz zu verbessern, die anhand der Optimierung durch erfahrene Entwickler gemessen wird. Unsere quantitative Auswertung zeigt, dass führende SWE-Agents erhebliche Schwierigkeiten haben und eine Erfolgsquote von weniger als 5 % erreichen, mit nur begrenzten Verbesserungen selbst bei Skalierung zur Inferenzzeit. Unsere qualitative Analyse identifiziert zentrale Fehlermodi, darunter Schwierigkeiten mit Low-Level-Sprachen, die Anwendung von trägen Optimierungsstrategien und Herausforderungen bei der präzisen Lokalisierung von Engpässen. Wir veröffentlichen den Code und die Artefakte unseres Benchmarks zusammen mit Agenten-Trajektorien, um zukünftige Forschung zu ermöglichen.
English
Developing high-performance software is a complex task that requires
specialized expertise. We introduce GSO, a benchmark for evaluating language
models' capabilities in developing high-performance software. We develop an
automated pipeline that generates and executes performance tests to analyze
repository commit histories to identify 102 challenging optimization tasks
across 10 codebases, spanning diverse domains and programming languages. An
agent is provided with a codebase and performance test as a precise
specification, and tasked to improve the runtime efficiency, which is measured
against the expert developer optimization. Our quantitative evaluation reveals
that leading SWE-Agents struggle significantly, achieving less than 5% success
rate, with limited improvements even with inference-time scaling. Our
qualitative analysis identifies key failure modes, including difficulties with
low-level languages, practicing lazy optimization strategies, and challenges in
accurately localizing bottlenecks. We release the code and artifacts of our
benchmark along with agent trajectories to enable future research.Summary
AI-Generated Summary