ChatPaper.aiChatPaper

OmniGIRL: Un Benchmark Multilingue e Multimodale per la Risoluzione di Issue su GitHub

OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7, 2025
Autori: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI

Abstract

Il compito di risoluzione delle issue su GitHub mira a risolvere automaticamente i problemi segnalati nei repository. Con i progressi nei grandi modelli linguistici (LLM), questo compito ha attirato un'attenzione crescente e sono stati proposti diversi benchmark per valutare la capacità di risoluzione delle issue degli LLM. Tuttavia, i benchmark esistenti presentano tre principali limitazioni. In primo luogo, i benchmark attuali si concentrano su un singolo linguaggio di programmazione, limitando la valutazione delle issue provenienti da repository di diversi linguaggi. In secondo luogo, coprono solitamente un ristretto range di domini, il che potrebbe non rappresentare la diversità delle issue del mondo reale. In terzo luogo, i benchmark esistenti si basano esclusivamente sulle informazioni testuali nelle descrizioni delle issue, trascurando le informazioni multimodali come le immagini presenti nelle issue. In questo articolo, proponiamo OmniGIRL, un benchmark per la risoluzione delle issue su GitHub che è multilingue, multimodale e multi-dominio. OmniGIRL include 959 istanze di task, raccolte da repository di quattro linguaggi di programmazione (ovvero Python, JavaScript, TypeScript e Java) e otto diversi domini. La nostra valutazione mostra che gli attuali LLM presentano prestazioni limitate su OmniGIRL. In particolare, il modello con le migliori prestazioni, GPT-4o, risolve solo l'8,6% delle issue. Inoltre, scopriamo che gli attuali LLM faticano a risolvere le issue che richiedono la comprensione delle immagini. La migliore prestazione è ottenuta da Claude-3.5-Sonnet, che risolve solo il 10,5% delle issue con informazioni visive. Infine, analizziamo le ragioni dietro il fallimento degli attuali LLM su OmniGIRL, fornendo spunti per futuri miglioramenti.
English
The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.
PDF91May 8, 2025