Richtlijnen voor het Aansturen van Grote Taalmodellen voor Codegeneratie: Een Empirische Karakterisering

Samenvatting

Groottaalmodellen (LLM's) worden tegenwoordig uitgebreid ingezet voor diverse soorten software-engineeringtaken, voornamelijk codegeneratie. Eerder onderzoek heeft aangetoond hoe geschikte promptengineering ontwikkelaars kan helpen bij het verbeteren van hun codegeneratie-prompts. Tot op heden bestaan er echter geen specifieke richtlijnen die ontwikkelaars leiden naar het schrijven van geschikte prompts voor codegeneratie. In dit werk leiden we ontwikkelingsspecifieke richtlijnen voor promptoptimalisatie af en evalueren we deze. Ten eerste gebruiken we een iteratieve, testgedreven aanpak om codegeneratie-prompts automatisch te verfijnen, en we analyseren de uitkomst van dit proces om promptverbeteringspunten te identificeren die leiden tot geslaagde tests. We gebruiken deze elementen om 10 richtlijnen voor promptverbetering af te leiden, gerelateerd aan het beter specificeren van I/O, pre- en postcondities, het verstrekken van voorbeelden, diverse soorten details, of het ophelderen van ambiguïteiten. We voeren een evaluatie uit met 50 praktijkbeoefenaars, die hun gebruik van de afgeleide promptverbeteringspatronen rapporteren, evenals hun ervaren nuttigheid, wat niet altijd overeenkomt met het daadwerkelijke gebruik voordat zij onze richtlijnen kenden. Onze resultaten leiden tot implicaties niet alleen voor praktijkbeoefenaars en opleiders, maar ook voor hen die gericht zijn op het creëren van betere met LLM's ondersteunde software-ontwikkeltools.

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Richtlijnen voor het Aansturen van Grote Taalmodellen voor Codegeneratie: Een Empirische Karakterisering

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Samenvatting

Support