OmniGIRL: Многоязычный и мультимодальный бенчмарк для решения задач на GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
May 7, 2025
Авторы: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI
Аннотация
Задача разрешения проблем на GitHub направлена на автоматическое устранение проблем, зарегистрированных в репозиториях. С развитием больших языковых моделей (LLM) эта задача привлекает все больше внимания, и было предложено несколько бенчмарков для оценки способности LLM решать проблемы. Однако существующие бенчмарки имеют три основных ограничения. Во-первых, текущие бенчмарки сосредоточены на одном языке программирования, что ограничивает оценку проблем из репозиториев на разных языках. Во-вторых, они обычно охватывают узкий круг областей, что может не отражать разнообразия реальных проблем. В-третьих, существующие бенчмарки полагаются исключительно на текстовую информацию в описаниях проблем, игнорируя мультимодальные данные, такие как изображения. В этой статье мы предлагаем OmniGIRL — бенчмарк для разрешения проблем на GitHub, который является многоязычным, мультимодальным и охватывает множество областей. OmniGIRL включает 959 задач, собранных из репозиториев на четырех языках программирования (Python, JavaScript, TypeScript и Java) и восьми различных областях. Наша оценка показывает, что текущие LLM демонстрируют ограниченные результаты на OmniGIRL. В частности, лучшая модель, GPT-4o, решает только 8,6% проблем. Кроме того, мы обнаружили, что текущие LLM испытывают трудности с решением проблем, требующих понимания изображений. Лучший результат показала модель Claude-3.5-Sonnet, которая решает только 10,5% проблем с изображениями. Наконец, мы анализируем причины неудач текущих LLM на OmniGIRL, предоставляя идеи для будущих улучшений.
English
The GitHub issue resolution task aims to resolve issues reported in
repositories automatically. With advances in large language models (LLMs), this
task has gained increasing attention, and several benchmarks are proposed to
evaluate the issue resolution ability of LLMs. However, existing benchmarks
have three main limitations. First, current benchmarks focus on a single
programming language, limiting the evaluation of issues from repositories
across different languages. Second, they usually cover a narrow range of
domains, which may fail to represent the diversity of real-world issues. Third,
existing benchmarks rely solely on textual information in issue descriptions,
overlooking multimodal information such as images in issues. In this paper, we
propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual,
multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are
collected from repositories across four programming languages (i.e., Python,
JavaScript, TypeScript, and Java) and eight different domains. Our evaluation
shows that current LLMs show limited performances on OmniGIRL. Notably, the
best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we
find that current LLMs struggle to resolve issues requiring understanding
images. The best performance is achieved by Claude-3.5-Sonnet, which resolves
only 10.5% of the issues with image information. Finally, we analyze the
reasons behind current LLMs' failure on OmniGIRL, providing insights for future
improvements.Summary
AI-Generated Summary