SWE-bench Становится Доступным!
SWE-bench Goes Live!
May 29, 2025
Авторы: Linghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang
cs.AI
Аннотация
Задача исправления ошибок, где модель генерирует патчи для устранения реальных багов, стала важным эталоном для оценки возможностей больших языковых моделей (LLM). Хотя SWE-bench и его варианты стали стандартом в этой области, они имеют ключевые ограничения: они не обновлялись с момента первоначального выпуска, охватывают узкий набор репозиториев и сильно зависят от ручного труда при создании экземпляров и настройке окружения. Эти факторы препятствуют масштабируемости и создают риски переобучения и загрязнения данных. В данной работе мы представляем SWE-bench-Live, динамически обновляемый эталон, разработанный для преодоления этих проблем. Наш первоначальный выпуск включает 1 319 задач, полученных из реальных проблем GitHub, созданных с 2024 года, охватывающих 93 репозитория. Каждая задача сопровождается выделенным образом Docker для обеспечения воспроизводимости выполнения. Основой нашего эталона является \method, автоматизированный конвейер обработки, который упрощает весь процесс от создания экземпляров до настройки окружения, устраняя ручные узкие места и обеспечивая масштабируемость и непрерывные обновления. Мы оцениваем ряд современных фреймворков агентов и LLM на SWE-bench-Live, выявляя значительный разрыв в производительности по сравнению со статическими эталонами, такими как SWE-bench, даже в контролируемых условиях оценки. Чтобы лучше понять это расхождение, мы проводим детальный анализ по происхождению репозиториев, новизне проблем и сложности задач. Предоставляя свежий, разнообразный и исполняемый эталон, основанный на активности живых репозиториев, SWE-bench-Live способствует строгой, устойчивой к загрязнению оценке LLM и агентов в динамичных условиях реальной разработки программного обеспечения.
English
The issue-resolving task, where a model generates patches to fix real-world
bugs, has emerged as a critical benchmark for evaluating the capabilities of
large language models (LLMs). While SWE-bench and its variants have become
standard in this domain, they suffer from key limitations: they have not been
updated since their initial releases, cover a narrow set of repositories, and
depend heavily on manual effort for instance construction and environment
setup. These factors hinder scalability and introduce risks of overfitting and
data contamination. In this work, we present SWE-bench-Live, a
live-updatable benchmark designed to overcome these challenges. Our
initial release consists of 1,319 tasks derived from real GitHub issues created
since 2024, spanning 93 repositories. Each task is accompanied by a dedicated
Docker image to ensure reproducible execution. Central to our benchmark is
\method, an automated curation pipeline that streamlines the entire process
from instance creation to environment setup, removing manual bottlenecks and
enabling scalability and continuous updates. We evaluate a range of
state-of-the-art agent frameworks and LLMs on SWE-bench-Live, revealing a
substantial performance gap compared to static benchmarks like SWE-bench, even
under controlled evaluation conditions. To better understand this discrepancy,
we perform detailed analyses across repository origin, issue recency, and task
difficulty. By providing a fresh, diverse, and executable benchmark grounded in
live repository activity, SWE-bench-Live facilitates rigorous,
contamination-resistant evaluation of LLMs and agents in dynamic, real-world
software development settings.Summary
AI-Generated Summary