LLPut: Investigando Modelos de Linguagem de Grande Escala para Geração de Entradas Baseadas em Relatórios de Bugs

Resumo

Entradas que induzem falhas desempenham um papel crucial no diagnóstico e análise de bugs de software. Relatórios de bugs geralmente contêm essas entradas, que os desenvolvedores extraem para facilitar a depuração. Como os relatórios de bugs são escritos em linguagem natural, pesquisas anteriores têm aproveitado várias técnicas de Processamento de Linguagem Natural (PLN) para a extração automatizada de entradas. Com o advento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), surge uma importante questão de pesquisa: quão efetivamente os LLMs generativos podem extrair entradas que induzem falhas de relatórios de bugs? Neste artigo, propomos o LLPut, uma técnica para avaliar empiricamente o desempenho de três LLMs generativos de código aberto -- LLaMA, Qwen e Qwen-Coder -- na extração de entradas relevantes de relatórios de bugs. Realizamos uma avaliação experimental em um conjunto de dados de 206 relatórios de bugs para avaliar a precisão e a eficácia desses modelos. Nossos resultados fornecem insights sobre as capacidades e limitações dos LLMs generativos no diagnóstico automatizado de bugs.

English

Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.

LLPut: Investigando Modelos de Linguagem de Grande Escala para Geração de Entradas Baseadas em Relatórios de Bugs

LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Resumo

Support