ChatPaper.aiChatPaper

LLPut : Exploration des modèles de langage de grande taille pour la génération d'entrées basées sur des rapports de bogues

LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

March 26, 2025
Auteurs: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI

Résumé

Les entrées provoquant des défaillances jouent un rôle crucial dans le diagnostic et l'analyse des bogues logiciels. Les rapports de bogues contiennent généralement ces entrées, que les développeurs extraient pour faciliter le débogage. Étant donné que les rapports de bogues sont rédigés en langage naturel, les recherches antérieures ont exploité diverses techniques de traitement du langage naturel (NLP) pour l'extraction automatisée des entrées. Avec l'avènement des modèles de langage de grande taille (LLMs), une question de recherche importante se pose : dans quelle mesure les LLMs génératifs peuvent-ils extraire efficacement les entrées provoquant des défaillances à partir des rapports de bogues ? Dans cet article, nous proposons LLPut, une technique pour évaluer empiriquement les performances de trois LLMs génératifs open-source — LLaMA, Qwen et Qwen-Coder — dans l'extraction des entrées pertinentes à partir des rapports de bogues. Nous menons une évaluation expérimentale sur un ensemble de données de 206 rapports de bogues pour évaluer la précision et l'efficacité de ces modèles. Nos résultats apportent des éclairages sur les capacités et les limites des LLMs génératifs dans le diagnostic automatisé des bogues.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.

Summary

AI-Generated Summary

PDF52March 28, 2025