OmniGIRL: Многоязычный и мультимодальный бенчмарк для решения задач на GitHub

Аннотация

Задача разрешения проблем на GitHub направлена на автоматическое устранение проблем, зарегистрированных в репозиториях. С развитием больших языковых моделей (LLM) эта задача привлекает все больше внимания, и было предложено несколько бенчмарков для оценки способности LLM решать проблемы. Однако существующие бенчмарки имеют три основных ограничения. Во-первых, текущие бенчмарки сосредоточены на одном языке программирования, что ограничивает оценку проблем из репозиториев на разных языках. Во-вторых, они обычно охватывают узкий круг областей, что может не отражать разнообразия реальных проблем. В-третьих, существующие бенчмарки полагаются исключительно на текстовую информацию в описаниях проблем, игнорируя мультимодальные данные, такие как изображения. В этой статье мы предлагаем OmniGIRL — бенчмарк для разрешения проблем на GitHub, который является многоязычным, мультимодальным и охватывает множество областей. OmniGIRL включает 959 задач, собранных из репозиториев на четырех языках программирования (Python, JavaScript, TypeScript и Java) и восьми различных областях. Наша оценка показывает, что текущие LLM демонстрируют ограниченные результаты на OmniGIRL. В частности, лучшая модель, GPT-4o, решает только 8,6% проблем. Кроме того, мы обнаружили, что текущие LLM испытывают трудности с решением проблем, требующих понимания изображений. Лучший результат показала модель Claude-3.5-Sonnet, которая решает только 10,5% проблем с изображениями. Наконец, мы анализируем причины неудач текущих LLM на OmniGIRL, предоставляя идеи для будущих улучшений.

English

The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.