OmniGIRL: Ein multilingualer und multimodaler Benchmark für die GitHub-Issue-Lösung
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
May 7, 2025
Autoren: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI
Zusammenfassung
Die Aufgabe zur Behebung von GitHub-Issues zielt darauf ab, in Repositories gemeldete Probleme automatisch zu lösen. Mit den Fortschritten bei großen Sprachmodellen (LLMs) hat diese Aufgabe zunehmend Aufmerksamkeit erlangt, und es wurden mehrere Benchmarks vorgeschlagen, um die Fähigkeit von LLMs zur Behebung von Issues zu bewerten. Allerdings weisen bestehende Benchmarks drei Hauptbeschränkungen auf. Erstens konzentrieren sich aktuelle Benchmarks auf eine einzelne Programmiersprache, was die Bewertung von Issues aus Repositories unterschiedlicher Sprachen einschränkt. Zweitens decken sie in der Regel nur einen engen Bereich von Domänen ab, was möglicherweise die Vielfalt realer Probleme nicht ausreichend repräsentiert. Drittens stützen sich bestehende Benchmarks ausschließlich auf textuelle Informationen in Issue-Beschreibungen und vernachlässigen multimodale Informationen wie Bilder in Issues. In diesem Artikel schlagen wir OmniGIRL vor, einen Benchmark zur Behebung von GitHub-Issues, der mehrsprachig, multimodal und multidisziplinär ist. OmniGIRL umfasst 959 Aufgabeninstanzen, die aus Repositories in vier Programmiersprachen (d. h. Python, JavaScript, TypeScript und Java) und acht verschiedenen Domänen gesammelt wurden. Unsere Auswertung zeigt, dass aktuelle LLMs bei OmniGIRL nur begrenzte Leistungen erbringen. Bemerkenswerterweise löst das leistungsstärkste Modell, GPT-4o, nur 8,6 % der Issues. Darüber hinaus stellen wir fest, dass aktuelle LLMs Schwierigkeiten haben, Issues zu lösen, die das Verständnis von Bildern erfordern. Die beste Leistung erzielt Claude-3.5-Sonnet, das nur 10,5 % der Issues mit Bildinformationen löst. Schließlich analysieren wir die Gründe für das Scheitern aktueller LLMs bei OmniGIRL und geben Einblicke für zukünftige Verbesserungen.
English
The GitHub issue resolution task aims to resolve issues reported in
repositories automatically. With advances in large language models (LLMs), this
task has gained increasing attention, and several benchmarks are proposed to
evaluate the issue resolution ability of LLMs. However, existing benchmarks
have three main limitations. First, current benchmarks focus on a single
programming language, limiting the evaluation of issues from repositories
across different languages. Second, they usually cover a narrow range of
domains, which may fail to represent the diversity of real-world issues. Third,
existing benchmarks rely solely on textual information in issue descriptions,
overlooking multimodal information such as images in issues. In this paper, we
propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual,
multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are
collected from repositories across four programming languages (i.e., Python,
JavaScript, TypeScript, and Java) and eight different domains. Our evaluation
shows that current LLMs show limited performances on OmniGIRL. Notably, the
best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we
find that current LLMs struggle to resolve issues requiring understanding
images. The best performance is achieved by Claude-3.5-Sonnet, which resolves
only 10.5% of the issues with image information. Finally, we analyze the
reasons behind current LLMs' failure on OmniGIRL, providing insights for future
improvements.Summary
AI-Generated Summary