OmniGIRL : Un benchmark multilingue et multimodal pour la résolution d'issues GitHub

Résumé

La tâche de résolution d'issues GitHub vise à résoudre automatiquement les problèmes signalés dans les dépôts. Avec les avancées des grands modèles de langage (LLM), cette tâche a suscité un intérêt croissant, et plusieurs benchmarks ont été proposés pour évaluer la capacité des LLM à résoudre les issues. Cependant, les benchmarks existants présentent trois limitations principales. Premièrement, les benchmarks actuels se concentrent sur un seul langage de programmation, limitant l'évaluation des issues provenant de dépôts utilisant différents langages. Deuxièmement, ils couvrent généralement un éventail restreint de domaines, ce qui peut ne pas représenter la diversité des problèmes rencontrés dans le monde réel. Troisièmement, les benchmarks existants s'appuient uniquement sur les informations textuelles des descriptions d'issues, négligeant les informations multimodales telles que les images présentes dans les issues. Dans cet article, nous proposons OmniGIRL, un benchmark de résolution d'issues GitHub multilingue, multimodal et multi-domaine. OmniGIRL comprend 959 instances de tâches, collectées à partir de dépôts utilisant quatre langages de programmation (Python, JavaScript, TypeScript et Java) et couvrant huit domaines différents. Notre évaluation montre que les LLM actuels obtiennent des performances limitées sur OmniGIRL. Notamment, le modèle le plus performant, GPT-4o, ne résout que 8,6 % des issues. De plus, nous constatons que les LLM actuels peinent à résoudre les issues nécessitant la compréhension d'images. La meilleure performance est obtenue par Claude-3.5-Sonnet, qui ne résout que 10,5 % des issues contenant des informations visuelles. Enfin, nous analysons les raisons des échecs des LLM actuels sur OmniGIRL, fournissant des pistes pour des améliorations futures.

English

The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.

OmniGIRL : Un benchmark multilingue et multimodal pour la résolution d'issues GitHub

OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

Résumé

Support