GSO : Des tâches complexes d'optimisation logicielle pour évaluer les agents SWE

papers.abstract

Le développement de logiciels hautes performances est une tâche complexe qui nécessite une expertise spécialisée. Nous présentons GSO, un benchmark pour évaluer les capacités des modèles de langage dans le développement de logiciels hautes performances. Nous développons un pipeline automatisé qui génère et exécute des tests de performance pour analyser les historiques de commits de dépôts, identifiant ainsi 102 tâches d'optimisation complexes réparties sur 10 bases de code, couvrant divers domaines et langages de programmation. Un agent reçoit une base de code et un test de performance comme spécification précise, et a pour mission d'améliorer l'efficacité en temps d'exécution, mesurée par rapport à l'optimisation réalisée par un développeur expert. Notre évaluation quantitative révèle que les principaux agents SWE rencontrent des difficultés significatives, avec un taux de réussite inférieur à 5 %, et des améliorations limitées même avec une mise à l'échelle au moment de l'inférence. Notre analyse qualitative identifie les principaux modes d'échec, notamment les difficultés avec les langages de bas niveau, la pratique de stratégies d'optimisation paresseuses, et les défis liés à la localisation précise des goulots d'étranglement. Nous publions le code et les artefacts de notre benchmark ainsi que les trajectoires des agents pour permettre des recherches futures.

English

Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models' capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.

GSO : Des tâches complexes d'optimisation logicielle pour évaluer les agents SWE

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

papers.abstract

Support