OmniGIRL : Un benchmark multilingue et multimodal pour la résolution d'issues GitHub
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
May 7, 2025
Auteurs: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI
Résumé
La tâche de résolution d'issues GitHub vise à résoudre automatiquement les problèmes signalés dans les dépôts. Avec les avancées des grands modèles de langage (LLM), cette tâche a suscité un intérêt croissant, et plusieurs benchmarks ont été proposés pour évaluer la capacité des LLM à résoudre les issues. Cependant, les benchmarks existants présentent trois limitations principales. Premièrement, les benchmarks actuels se concentrent sur un seul langage de programmation, limitant l'évaluation des issues provenant de dépôts utilisant différents langages. Deuxièmement, ils couvrent généralement un éventail restreint de domaines, ce qui peut ne pas représenter la diversité des problèmes rencontrés dans le monde réel. Troisièmement, les benchmarks existants s'appuient uniquement sur les informations textuelles des descriptions d'issues, négligeant les informations multimodales telles que les images présentes dans les issues. Dans cet article, nous proposons OmniGIRL, un benchmark de résolution d'issues GitHub multilingue, multimodal et multi-domaine. OmniGIRL comprend 959 instances de tâches, collectées à partir de dépôts utilisant quatre langages de programmation (Python, JavaScript, TypeScript et Java) et couvrant huit domaines différents. Notre évaluation montre que les LLM actuels obtiennent des performances limitées sur OmniGIRL. Notamment, le modèle le plus performant, GPT-4o, ne résout que 8,6 % des issues. De plus, nous constatons que les LLM actuels peinent à résoudre les issues nécessitant la compréhension d'images. La meilleure performance est obtenue par Claude-3.5-Sonnet, qui ne résout que 10,5 % des issues contenant des informations visuelles. Enfin, nous analysons les raisons des échecs des LLM actuels sur OmniGIRL, fournissant des pistes pour des améliorations futures.
English
The GitHub issue resolution task aims to resolve issues reported in
repositories automatically. With advances in large language models (LLMs), this
task has gained increasing attention, and several benchmarks are proposed to
evaluate the issue resolution ability of LLMs. However, existing benchmarks
have three main limitations. First, current benchmarks focus on a single
programming language, limiting the evaluation of issues from repositories
across different languages. Second, they usually cover a narrow range of
domains, which may fail to represent the diversity of real-world issues. Third,
existing benchmarks rely solely on textual information in issue descriptions,
overlooking multimodal information such as images in issues. In this paper, we
propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual,
multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are
collected from repositories across four programming languages (i.e., Python,
JavaScript, TypeScript, and Java) and eight different domains. Our evaluation
shows that current LLMs show limited performances on OmniGIRL. Notably, the
best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we
find that current LLMs struggle to resolve issues requiring understanding
images. The best performance is achieved by Claude-3.5-Sonnet, which resolves
only 10.5% of the issues with image information. Finally, we analyze the
reasons behind current LLMs' failure on OmniGIRL, providing insights for future
improvements.Summary
AI-Generated Summary