GSO: Сложные задачи оптимизации программного обеспечения для оценки SWE-агентов
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents
May 29, 2025
Авторы: Manish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica
cs.AI
Аннотация
Разработка высокопроизводительного программного обеспечения — это сложная задача, требующая специализированных знаний. Мы представляем GSO — эталонный тест для оценки способностей языковых моделей в разработке высокопроизводительного ПО. Мы разработали автоматизированный конвейер, который генерирует и выполняет тесты производительности, анализируя историю коммитов репозиториев, чтобы выявить 102 сложные задачи оптимизации в 10 кодовых базах, охватывающих различные области и языки программирования. Агенту предоставляется кодовая база и тест производительности в качестве точной спецификации, и его задача — улучшить эффективность выполнения, которая измеряется в сравнении с оптимизацией, выполненной экспертом-разработчиком. Наше количественное исследование показывает, что ведущие SWE-агенты испытывают значительные трудности, достигая успеха менее чем в 5% случаев, с ограниченными улучшениями даже при масштабировании на этапе вывода. Качественный анализ выявляет ключевые причины неудач, включая сложности с низкоуровневыми языками, применение стратегий ленивой оптимизации и трудности в точной локализации узких мест. Мы публикуем код и артефакты нашего эталонного теста вместе с траекториями агентов, чтобы способствовать дальнейшим исследованиям.
English
Developing high-performance software is a complex task that requires
specialized expertise. We introduce GSO, a benchmark for evaluating language
models' capabilities in developing high-performance software. We develop an
automated pipeline that generates and executes performance tests to analyze
repository commit histories to identify 102 challenging optimization tasks
across 10 codebases, spanning diverse domains and programming languages. An
agent is provided with a codebase and performance test as a precise
specification, and tasked to improve the runtime efficiency, which is measured
against the expert developer optimization. Our quantitative evaluation reveals
that leading SWE-Agents struggle significantly, achieving less than 5% success
rate, with limited improvements even with inference-time scaling. Our
qualitative analysis identifies key failure modes, including difficulties with
low-level languages, practicing lazy optimization strategies, and challenges in
accurately localizing bottlenecks. We release the code and artifacts of our
benchmark along with agent trajectories to enable future research.Summary
AI-Generated Summary