OmniGIRL: Een meertalige en multimodale benchmark voor GitHub Issue-oplossing
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
May 7, 2025
Auteurs: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI
Samenvatting
De GitHub-issue-oplossingstaak heeft als doel om problemen die in repositories worden gemeld automatisch op te lossen. Met de vooruitgang in grote taalmodellen (LLM's) heeft deze taak steeds meer aandacht gekregen, en er zijn verschillende benchmarks voorgesteld om de probleemoplossende vaardigheden van LLM's te evalueren. Bestaande benchmarks hebben echter drie belangrijke beperkingen. Ten eerste richten huidige benchmarks zich op één programmeertaal, wat de evaluatie van problemen uit repositories in verschillende talen beperkt. Ten tweede bestrijken ze meestal een smal domeinbereik, wat mogelijk niet de diversiteit van problemen in de echte wereld weerspiegelt. Ten derde vertrouwen bestaande benchmarks uitsluitend op tekstuele informatie in probleembeschrijvingen, waarbij multimodale informatie zoals afbeeldingen in problemen over het hoofd wordt gezien. In dit artikel stellen we OmniGIRL voor, een GitHub Issue ResoLution-benchmark die meertalig, multimodaal en multidomein is. OmniGIRL omvat 959 taakinstanties, die zijn verzameld uit repositories in vier programmeertalen (Python, JavaScript, TypeScript en Java) en acht verschillende domeinen. Onze evaluatie toont aan dat huidige LLM's beperkte prestaties leveren op OmniGIRL. Opmerkelijk is dat het best presterende model, GPT-4o, slechts 8,6% van de problemen oplost. Daarnaast blijkt dat huidige LLM's moeite hebben met het oplossen van problemen die begrip van afbeeldingen vereisen. De beste prestatie wordt behaald door Claude-3.5-Sonnet, dat slechts 10,5% van de problemen met afbeeldingsinformatie oplost. Tot slot analyseren we de redenen achter het falen van huidige LLM's op OmniGIRL, wat inzichten biedt voor toekomstige verbeteringen.
English
The GitHub issue resolution task aims to resolve issues reported in
repositories automatically. With advances in large language models (LLMs), this
task has gained increasing attention, and several benchmarks are proposed to
evaluate the issue resolution ability of LLMs. However, existing benchmarks
have three main limitations. First, current benchmarks focus on a single
programming language, limiting the evaluation of issues from repositories
across different languages. Second, they usually cover a narrow range of
domains, which may fail to represent the diversity of real-world issues. Third,
existing benchmarks rely solely on textual information in issue descriptions,
overlooking multimodal information such as images in issues. In this paper, we
propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual,
multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are
collected from repositories across four programming languages (i.e., Python,
JavaScript, TypeScript, and Java) and eight different domains. Our evaluation
shows that current LLMs show limited performances on OmniGIRL. Notably, the
best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we
find that current LLMs struggle to resolve issues requiring understanding
images. The best performance is achieved by Claude-3.5-Sonnet, which resolves
only 10.5% of the issues with image information. Finally, we analyze the
reasons behind current LLMs' failure on OmniGIRL, providing insights for future
improvements.