LLPut: Investigando Modelos de Linguagem de Grande Escala para Geração de Entradas Baseadas em Relatórios de Bugs
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
March 26, 2025
Autores: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI
Resumo
Entradas que induzem falhas desempenham um papel crucial no diagnóstico e análise de bugs de software. Relatórios de bugs geralmente contêm essas entradas, que os desenvolvedores extraem para facilitar a depuração. Como os relatórios de bugs são escritos em linguagem natural, pesquisas anteriores têm aproveitado várias técnicas de Processamento de Linguagem Natural (PLN) para a extração automatizada de entradas. Com o advento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), surge uma importante questão de pesquisa: quão efetivamente os LLMs generativos podem extrair entradas que induzem falhas de relatórios de bugs? Neste artigo, propomos o LLPut, uma técnica para avaliar empiricamente o desempenho de três LLMs generativos de código aberto -- LLaMA, Qwen e Qwen-Coder -- na extração de entradas relevantes de relatórios de bugs. Realizamos uma avaliação experimental em um conjunto de dados de 206 relatórios de bugs para avaliar a precisão e a eficácia desses modelos. Nossos resultados fornecem insights sobre as capacidades e limitações dos LLMs generativos no diagnóstico automatizado de bugs.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing
software bugs. Bug reports typically contain these inputs, which developers
extract to facilitate debugging. Since bug reports are written in natural
language, prior research has leveraged various Natural Language Processing
(NLP) techniques for automated input extraction. With the advent of Large
Language Models (LLMs), an important research question arises: how effectively
can generative LLMs extract failure-inducing inputs from bug reports? In this
paper, we propose LLPut, a technique to empirically evaluate the performance of
three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in
extracting relevant inputs from bug reports. We conduct an experimental
evaluation on a dataset of 206 bug reports to assess the accuracy and
effectiveness of these models. Our findings provide insights into the
capabilities and limitations of generative LLMs in automated bug diagnosis.Summary
AI-Generated Summary