ChatPaper.aiChatPaper

LLPut: Onderzoek naar Large Language Models voor Inputgeneratie op Basis van Bugrapporten

LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

March 26, 2025
Auteurs: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI

Samenvatting

Foutinducerende invoer speelt een cruciale rol bij het diagnosticeren en analyseren van softwarebugs. Bugrapporten bevatten doorgaans deze invoer, die ontwikkelaars extraheren om het debuggen te vergemakkelijken. Omdat bugrapporten in natuurlijke taal zijn geschreven, heeft eerder onderzoek verschillende Natural Language Processing (NLP)-technieken benut voor geautomatiseerde invoerextractie. Met de opkomst van Large Language Models (LLM's) rijst een belangrijke onderzoeksvraag: hoe effectief kunnen generatieve LLM's foutinducerende invoer uit bugrapporten extraheren? In dit artikel stellen we LLPut voor, een techniek om de prestaties van drie open-source generatieve LLM's — LLaMA, Qwen en Qwen-Coder — empirisch te evalueren bij het extraheren van relevante invoer uit bugrapporten. We voeren een experimentele evaluatie uit op een dataset van 206 bugrapporten om de nauwkeurigheid en effectiviteit van deze modellen te beoordelen. Onze bevindingen bieden inzicht in de mogelijkheden en beperkingen van generatieve LLM's bij geautomatiseerde bugdiagnose.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.

Summary

AI-Generated Summary

PDF52March 28, 2025