ChatPaper.aiChatPaper

Multi-SWE-bench: Многоязычный эталон для решения задач

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

April 3, 2025
Авторы: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
cs.AI

Аннотация

Задача разрешения проблем заключается в модификации кодовой базы для создания патча, который устраняет заданную проблему. Однако существующие бенчмарки, такие как SWE-bench, сосредоточены почти исключительно на Python, что делает их недостаточными для оценки больших языковых моделей (LLM) в разнообразных программных экосистемах. Чтобы решить эту проблему, мы представляем мультиязычный бенчмарк для разрешения проблем, называемый Multi-SWE-bench, охватывающий Java, TypeScript, JavaScript, Go, Rust, C и C++. Он включает в себя 1632 высококачественных примера, которые были тщательно аннотированы из 2456 кандидатов 68 экспертами, что гарантирует точную и надежную оценку. На основе Multi-SWE-bench мы оцениваем серию современных моделей с использованием трех репрезентативных методов (Agentless, SWE-agent и OpenHands) и представляем всесторонний анализ с ключевыми эмпирическими выводами. Кроме того, мы запускаем открытое сообщество Multi-SWE-RL, направленное на создание крупномасштабных наборов данных для обучения с подкреплением (RL) для задач разрешения проблем. В качестве начального вклада мы выпускаем набор из 4723 хорошо структурированных примеров, охватывающих семь языков программирования, что закладывает прочную основу для исследований RL в этой области. Более того, мы открываем весь наш конвейер производства данных вместе с подробными руководствами, поощряя открытое сообщество к постоянному вкладу и расширению набора данных. Мы видим наш Multi-SWE-bench и постоянно растущее сообщество Multi-SWE-RL как катализаторы для продвижения RL к его полному потенциалу, приближая нас на шаг ближе к рассвету искусственного общего интеллекта (AGI).
English
The task of issue resolving is to modify a codebase to generate a patch that addresses a given issue. However, existing benchmarks, such as SWE-bench, focus almost exclusively on Python, making them insufficient for evaluating Large Language Models (LLMs) across diverse software ecosystems. To address this, we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a total of 1,632 high-quality instances, which were carefully annotated from 2,456 candidates by 68 expert annotators, ensuring that the benchmark can provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we evaluate a series of state-of-the-art models using three representative methods (Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with key empirical insights. In addition, we launch a Multi-SWE-RL open-source community, aimed at building large-scale reinforcement learning (RL) training datasets for issue-resolving tasks. As an initial contribution, we release a set of 4,723 well-structured instances spanning seven programming languages, laying a solid foundation for RL research in this domain. More importantly, we open-source our entire data production pipeline, along with detailed tutorials, encouraging the open-source community to continuously contribute and expand the dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL community as catalysts for advancing RL toward its full potential, bringing us one step closer to the dawn of AGI.

Summary

AI-Generated Summary

PDF453April 7, 2025