GSO: Uitdagende softwareoptimalisatietaken voor het evalueren van SWE-Agents

Samenvatting

Het ontwikkelen van hoogwaardige software is een complexe taak die gespecialiseerde expertise vereist. Wij introduceren GSO, een benchmark voor het evalueren van de capaciteiten van taalmodellen bij het ontwikkelen van hoogwaardige software. We ontwikkelen een geautomatiseerde pipeline die prestatie tests genereert en uitvoert om repository commitgeschiedenissen te analyseren, waarbij 102 uitdagende optimalisatietaken worden geïdentificeerd over 10 codebases, die diverse domeinen en programmeertalen omvatten. Een agent krijgt een codebase en een prestatie test als precieze specificatie, en krijgt de taak om de runtime-efficiëntie te verbeteren, wat wordt gemeten tegen de optimalisatie van een expertontwikkelaar. Onze kwantitatieve evaluatie toont aan dat toonaangevende SWE-Agents aanzienlijk moeite hebben, met een slagingspercentage van minder dan 5%, en slechts beperkte verbeteringen, zelfs bij schaling tijdens inferentie. Onze kwalitatieve analyse identificeert belangrijke faalmodi, waaronder moeilijkheden met low-level talen, het toepassen van luie optimalisatiestrategieën, en uitdagingen bij het nauwkeurig lokaliseren van knelpunten. We publiceren de code en artefacten van onze benchmark, samen met agenttrajecten, om toekomstig onderzoek mogelijk te maken.

English

Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models' capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.

GSO: Uitdagende softwareoptimalisatietaken voor het evalueren van SWE-Agents

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

Samenvatting

Support