ChatPaper.aiChatPaper

OmniGIRL: Um Benchmark Multilíngue e Multimodal para Resolução de Issues no GitHub

OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7, 2025
Autores: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI

Resumo

A tarefa de resolução de problemas no GitHub visa resolver automaticamente os problemas relatados em repositórios. Com os avanços nos modelos de linguagem de grande escala (LLMs), essa tarefa tem recebido crescente atenção, e vários benchmarks foram propostos para avaliar a capacidade de resolução de problemas dos LLMs. No entanto, os benchmarks existentes apresentam três limitações principais. Primeiro, os benchmarks atuais focam em uma única linguagem de programação, limitando a avaliação de problemas de repositórios em diferentes linguagens. Segundo, eles geralmente cobrem uma gama estreita de domínios, o que pode não representar a diversidade de problemas do mundo real. Terceiro, os benchmarks existentes dependem exclusivamente de informações textuais nas descrições dos problemas, ignorando informações multimodais, como imagens nos problemas. Neste artigo, propomos o OmniGIRL, um benchmark de Resolução de Problemas no GitHub que é multilíngue, multimodal e multidisciplinar. O OmniGIRL inclui 959 instâncias de tarefas, coletadas de repositórios em quatro linguagens de programação (ou seja, Python, JavaScript, TypeScript e Java) e oito domínios diferentes. Nossa avaliação mostra que os LLMs atuais apresentam desempenhos limitados no OmniGIRL. Notavelmente, o modelo com melhor desempenho, GPT-4o, resolve apenas 8,6% dos problemas. Além disso, descobrimos que os LLMs atuais têm dificuldade em resolver problemas que exigem a compreensão de imagens. O melhor desempenho é alcançado pelo Claude-3.5-Sonnet, que resolve apenas 10,5% dos problemas com informações de imagem. Por fim, analisamos as razões por trás do fracasso dos LLMs atuais no OmniGIRL, fornecendo insights para melhorias futuras.
English
The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.
PDF91May 8, 2025