LLPut: Onderzoek naar Large Language Models voor Inputgeneratie op Basis van Bugrapporten
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
March 26, 2025
Auteurs: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI
Samenvatting
Foutinducerende invoer speelt een cruciale rol bij het diagnosticeren en analyseren van softwarebugs. Bugrapporten bevatten doorgaans deze invoer, die ontwikkelaars extraheren om het debuggen te vergemakkelijken. Omdat bugrapporten in natuurlijke taal zijn geschreven, heeft eerder onderzoek verschillende Natural Language Processing (NLP)-technieken benut voor geautomatiseerde invoerextractie. Met de opkomst van Large Language Models (LLM's) rijst een belangrijke onderzoeksvraag: hoe effectief kunnen generatieve LLM's foutinducerende invoer uit bugrapporten extraheren? In dit artikel stellen we LLPut voor, een techniek om de prestaties van drie open-source generatieve LLM's — LLaMA, Qwen en Qwen-Coder — empirisch te evalueren bij het extraheren van relevante invoer uit bugrapporten. We voeren een experimentele evaluatie uit op een dataset van 206 bugrapporten om de nauwkeurigheid en effectiviteit van deze modellen te beoordelen. Onze bevindingen bieden inzicht in de mogelijkheden en beperkingen van generatieve LLM's bij geautomatiseerde bugdiagnose.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing
software bugs. Bug reports typically contain these inputs, which developers
extract to facilitate debugging. Since bug reports are written in natural
language, prior research has leveraged various Natural Language Processing
(NLP) techniques for automated input extraction. With the advent of Large
Language Models (LLMs), an important research question arises: how effectively
can generative LLMs extract failure-inducing inputs from bug reports? In this
paper, we propose LLPut, a technique to empirically evaluate the performance of
three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in
extracting relevant inputs from bug reports. We conduct an experimental
evaluation on a dataset of 206 bug reports to assess the accuracy and
effectiveness of these models. Our findings provide insights into the
capabilities and limitations of generative LLMs in automated bug diagnosis.Summary
AI-Generated Summary