LLPut: Investigación de Modelos de Lenguaje de Gran Escala para la Generación de Entradas Basadas en Reportes de Errores
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
March 26, 2025
Autores: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI
Resumen
Las entradas que provocan fallos desempeñan un papel crucial en el diagnóstico y análisis de errores de software. Los informes de errores suelen contener estas entradas, que los desarrolladores extraen para facilitar la depuración. Dado que los informes de errores están escritos en lenguaje natural, investigaciones previas han aprovechado diversas técnicas de Procesamiento del Lenguaje Natural (PLN) para la extracción automatizada de entradas. Con el surgimiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), surge una pregunta de investigación importante: ¿qué tan efectivamente pueden los LLM generativos extraer entradas que provocan fallos de los informes de errores? En este artículo, proponemos LLPut, una técnica para evaluar empíricamente el rendimiento de tres LLM generativos de código abierto —LLaMA, Qwen y Qwen-Coder— en la extracción de entradas relevantes de informes de errores. Realizamos una evaluación experimental en un conjunto de datos de 206 informes de errores para evaluar la precisión y efectividad de estos modelos. Nuestros hallazgos proporcionan información sobre las capacidades y limitaciones de los LLM generativos en el diagnóstico automatizado de errores.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing
software bugs. Bug reports typically contain these inputs, which developers
extract to facilitate debugging. Since bug reports are written in natural
language, prior research has leveraged various Natural Language Processing
(NLP) techniques for automated input extraction. With the advent of Large
Language Models (LLMs), an important research question arises: how effectively
can generative LLMs extract failure-inducing inputs from bug reports? In this
paper, we propose LLPut, a technique to empirically evaluate the performance of
three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in
extracting relevant inputs from bug reports. We conduct an experimental
evaluation on a dataset of 206 bug reports to assess the accuracy and
effectiveness of these models. Our findings provide insights into the
capabilities and limitations of generative LLMs in automated bug diagnosis.Summary
AI-Generated Summary