Multi-SWE-bench: Многоязычный эталон для решения задачMulti-SWE-bench: A Multilingual Benchmark for Issue Resolving
Задача разрешения проблем заключается в модификации кодовой базы для создания патча, который устраняет заданную проблему. Однако существующие бенчмарки, такие как SWE-bench, сосредоточены почти исключительно на Python, что делает их недостаточными для оценки больших языковых моделей (LLM) в разнообразных программных экосистемах. Чтобы решить эту проблему, мы представляем мультиязычный бенчмарк для разрешения проблем, называемый Multi-SWE-bench, охватывающий Java, TypeScript, JavaScript, Go, Rust, C и C++. Он включает в себя 1632 высококачественных примера, которые были тщательно аннотированы из 2456 кандидатов 68 экспертами, что гарантирует точную и надежную оценку. На основе Multi-SWE-bench мы оцениваем серию современных моделей с использованием трех репрезентативных методов (Agentless, SWE-agent и OpenHands) и представляем всесторонний анализ с ключевыми эмпирическими выводами. Кроме того, мы запускаем открытое сообщество Multi-SWE-RL, направленное на создание крупномасштабных наборов данных для обучения с подкреплением (RL) для задач разрешения проблем. В качестве начального вклада мы выпускаем набор из 4723 хорошо структурированных примеров, охватывающих семь языков программирования, что закладывает прочную основу для исследований RL в этой области. Более того, мы открываем весь наш конвейер производства данных вместе с подробными руководствами, поощряя открытое сообщество к постоянному вкладу и расширению набора данных. Мы видим наш Multi-SWE-bench и постоянно растущее сообщество Multi-SWE-RL как катализаторы для продвижения RL к его полному потенциалу, приближая нас на шаг ближе к рассвету искусственного общего интеллекта (AGI).