ChatPaper.aiChatPaper

LLPut: Исследование возможностей больших языковых моделей для генерации входных данных на основе отчетов об ошибках

LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

March 26, 2025
Авторы: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI

Аннотация

Входные данные, вызывающие сбои, играют ключевую роль в диагностике и анализе программных ошибок. Отчёты об ошибках обычно содержат такие данные, которые разработчики извлекают для упрощения отладки. Поскольку отчёты об ошибках написаны на естественном языке, предыдущие исследования использовали различные методы обработки естественного языка (Natural Language Processing, NLP) для автоматического извлечения входных данных. С появлением крупных языковых моделей (Large Language Models, LLMs) возникает важный исследовательский вопрос: насколько эффективно генеративные LLM могут извлекать входные данные, вызывающие сбои, из отчётов об ошибках? В данной статье мы предлагаем LLPut — метод для эмпирической оценки производительности трёх открытых генеративных LLM (LLaMA, Qwen и Qwen-Coder) в извлечении релевантных входных данных из отчётов об ошибках. Мы проводим экспериментальную оценку на наборе данных из 206 отчётов об ошибках, чтобы оценить точность и эффективность этих моделей. Наши результаты дают представление о возможностях и ограничениях генеративных LLM в автоматической диагностике ошибок.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.

Summary

AI-Generated Summary

PDF52March 28, 2025