LLPut: Исследование возможностей больших языковых моделей для генерации входных данных на основе отчетов об ошибках
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation
March 26, 2025
Авторы: Alif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
cs.AI
Аннотация
Входные данные, вызывающие сбои, играют ключевую роль в диагностике и анализе программных ошибок. Отчёты об ошибках обычно содержат такие данные, которые разработчики извлекают для упрощения отладки. Поскольку отчёты об ошибках написаны на естественном языке, предыдущие исследования использовали различные методы обработки естественного языка (Natural Language Processing, NLP) для автоматического извлечения входных данных. С появлением крупных языковых моделей (Large Language Models, LLMs) возникает важный исследовательский вопрос: насколько эффективно генеративные LLM могут извлекать входные данные, вызывающие сбои, из отчётов об ошибках? В данной статье мы предлагаем LLPut — метод для эмпирической оценки производительности трёх открытых генеративных LLM (LLaMA, Qwen и Qwen-Coder) в извлечении релевантных входных данных из отчётов об ошибках. Мы проводим экспериментальную оценку на наборе данных из 206 отчётов об ошибках, чтобы оценить точность и эффективность этих моделей. Наши результаты дают представление о возможностях и ограничениях генеративных LLM в автоматической диагностике ошибок.
English
Failure-inducing inputs play a crucial role in diagnosing and analyzing
software bugs. Bug reports typically contain these inputs, which developers
extract to facilitate debugging. Since bug reports are written in natural
language, prior research has leveraged various Natural Language Processing
(NLP) techniques for automated input extraction. With the advent of Large
Language Models (LLMs), an important research question arises: how effectively
can generative LLMs extract failure-inducing inputs from bug reports? In this
paper, we propose LLPut, a technique to empirically evaluate the performance of
three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in
extracting relevant inputs from bug reports. We conduct an experimental
evaluation on a dataset of 206 bug reports to assess the accuracy and
effectiveness of these models. Our findings provide insights into the
capabilities and limitations of generative LLMs in automated bug diagnosis.Summary
AI-Generated Summary