OmniGIRL: Un Benchmark Multilingue e Multimodale per la Risoluzione di Issue su GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
May 7, 2025
Autori: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI
Abstract
Il compito di risoluzione delle issue su GitHub mira a risolvere automaticamente i problemi segnalati nei repository. Con i progressi nei grandi modelli linguistici (LLM), questo compito ha attirato un'attenzione crescente e sono stati proposti diversi benchmark per valutare la capacità di risoluzione delle issue degli LLM. Tuttavia, i benchmark esistenti presentano tre principali limitazioni. In primo luogo, i benchmark attuali si concentrano su un singolo linguaggio di programmazione, limitando la valutazione delle issue provenienti da repository di diversi linguaggi. In secondo luogo, coprono solitamente un ristretto range di domini, il che potrebbe non rappresentare la diversità delle issue del mondo reale. In terzo luogo, i benchmark esistenti si basano esclusivamente sulle informazioni testuali nelle descrizioni delle issue, trascurando le informazioni multimodali come le immagini presenti nelle issue. In questo articolo, proponiamo OmniGIRL, un benchmark per la risoluzione delle issue su GitHub che è multilingue, multimodale e multi-dominio. OmniGIRL include 959 istanze di task, raccolte da repository di quattro linguaggi di programmazione (ovvero Python, JavaScript, TypeScript e Java) e otto diversi domini. La nostra valutazione mostra che gli attuali LLM presentano prestazioni limitate su OmniGIRL. In particolare, il modello con le migliori prestazioni, GPT-4o, risolve solo l'8,6% delle issue. Inoltre, scopriamo che gli attuali LLM faticano a risolvere le issue che richiedono la comprensione delle immagini. La migliore prestazione è ottenuta da Claude-3.5-Sonnet, che risolve solo il 10,5% delle issue con informazioni visive. Infine, analizziamo le ragioni dietro il fallimento degli attuali LLM su OmniGIRL, fornendo spunti per futuri miglioramenti.
English
The GitHub issue resolution task aims to resolve issues reported in
repositories automatically. With advances in large language models (LLMs), this
task has gained increasing attention, and several benchmarks are proposed to
evaluate the issue resolution ability of LLMs. However, existing benchmarks
have three main limitations. First, current benchmarks focus on a single
programming language, limiting the evaluation of issues from repositories
across different languages. Second, they usually cover a narrow range of
domains, which may fail to represent the diversity of real-world issues. Third,
existing benchmarks rely solely on textual information in issue descriptions,
overlooking multimodal information such as images in issues. In this paper, we
propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual,
multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are
collected from repositories across four programming languages (i.e., Python,
JavaScript, TypeScript, and Java) and eight different domains. Our evaluation
shows that current LLMs show limited performances on OmniGIRL. Notably, the
best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we
find that current LLMs struggle to resolve issues requiring understanding
images. The best performance is achieved by Claude-3.5-Sonnet, which resolves
only 10.5% of the issues with image information. Finally, we analyze the
reasons behind current LLMs' failure on OmniGIRL, providing insights for future
improvements.