ChatPaper.aiChatPaper

OmniGIRL: Un punto de referencia multilingüe y multimodal para la resolución de incidencias en GitHub

OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

May 7, 2025
Autores: Lianghong Guo, Wei Tao, Runhan Jiang, Yanlin Wang, Jiachi Chen, Xilin Liu, Yuchi Ma, Mingzhi Mao, Hongyu Zhang, Zibin Zheng
cs.AI

Resumen

La tarea de resolución de problemas en GitHub tiene como objetivo resolver automáticamente los problemas reportados en los repositorios. Con los avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), esta tarea ha ganado creciente atención, y se han propuesto varios puntos de referencia para evaluar la capacidad de resolución de problemas de los LLMs. Sin embargo, los puntos de referencia existentes presentan tres limitaciones principales. En primer lugar, los puntos de referencia actuales se centran en un único lenguaje de programación, lo que limita la evaluación de problemas provenientes de repositorios en diferentes lenguajes. En segundo lugar, suelen abarcar un rango estrecho de dominios, lo que puede no representar la diversidad de problemas del mundo real. En tercer lugar, los puntos de referencia existentes dependen únicamente de la información textual en las descripciones de los problemas, pasando por alto información multimodal, como imágenes en los problemas. En este artículo, proponemos OmniGIRL, un punto de referencia para la Resolución de Problemas en GitHub que es multilingüe, multimodal y multidominio. OmniGIRL incluye 959 instancias de tareas, recopiladas de repositorios en cuatro lenguajes de programación (es decir, Python, JavaScript, TypeScript y Java) y ocho dominios diferentes. Nuestra evaluación muestra que los LLMs actuales tienen un desempeño limitado en OmniGIRL. Notablemente, el modelo con mejor rendimiento, GPT-4o, resuelve solo el 8.6% de los problemas. Además, encontramos que los LLMs actuales tienen dificultades para resolver problemas que requieren la comprensión de imágenes. El mejor rendimiento lo logra Claude-3.5-Sonnet, que resuelve solo el 10.5% de los problemas con información de imágenes. Finalmente, analizamos las razones detrás del fracaso de los LLMs actuales en OmniGIRL, proporcionando ideas para futuras mejoras.
English
The GitHub issue resolution task aims to resolve issues reported in repositories automatically. With advances in large language models (LLMs), this task has gained increasing attention, and several benchmarks are proposed to evaluate the issue resolution ability of LLMs. However, existing benchmarks have three main limitations. First, current benchmarks focus on a single programming language, limiting the evaluation of issues from repositories across different languages. Second, they usually cover a narrow range of domains, which may fail to represent the diversity of real-world issues. Third, existing benchmarks rely solely on textual information in issue descriptions, overlooking multimodal information such as images in issues. In this paper, we propose OmniGIRL, a GitHub Issue ResoLution benchmark that is multilingual, multimodal, and multi-domain. OmniGIRL includes 959 task instances, which are collected from repositories across four programming languages (i.e., Python, JavaScript, TypeScript, and Java) and eight different domains. Our evaluation shows that current LLMs show limited performances on OmniGIRL. Notably, the best-performing model, GPT-4o, resolves only 8.6% of the issues. Besides, we find that current LLMs struggle to resolve issues requiring understanding images. The best performance is achieved by Claude-3.5-Sonnet, which resolves only 10.5% of the issues with image information. Finally, we analyze the reasons behind current LLMs' failure on OmniGIRL, providing insights for future improvements.

Summary

AI-Generated Summary

PDF61May 8, 2025