Leitfaden zur Ansteuerung großer Sprachmodelle für die Code-Generierung: Eine empirische Charakterisierung

papers.abstract

Große Sprachmodelle (LLMs) werden heutzutage umfassend für verschiedene Arten von Softwareentwicklungsaufgaben eingesetzt, hauptsächlich für die Codegenerierung. Frühere Forschungen haben gezeigt, wie geeignetes Prompt-Engineering Entwickler dabei unterstützen kann, ihre Prompts für die Codegenerierung zu verbessern. Bislang existieren jedoch keine spezifischen Richtlinien, die Entwickler zum Verfassen geeigneter Prompts für die Codegenerierung anleiten. In dieser Arbeit leiten wir entwicklungsbezogene Richtlinien zur Prompt-Optimierung ab und evaluieren sie. Zunächst verwenden wir einen iterativen, testgetriebenen Ansatz, um Codegenerierungs-Prompts automatisch zu verfeinern, und wir analysieren die Ergebnisse dieses Prozesses, um Prompt-Verbesserungselemente zu identifizieren, die zu bestandenen Tests führen. Wir nutzen diese Elemente, um 10 Richtlinien für die Prompt-Verbesserung abzuleiten, die sich auf die präzisere Spezifikation von Ein-/Ausgaben, Vor- und Nachbedingungen, das Bereitstellen von Beispielen, verschiedene Arten von Details oder das Klären von Unklarheiten beziehen. Wir führen eine Bewertung mit 50 Praktikern durch, die ihre Nutzung der abgeleiteten Prompt-Verbesserungsmuster sowie deren wahrgenommene Nützlichkeit berichten, was nicht immer der tatsächlichen Nutzung vor der Kenntnis unserer Richtlinien entspricht. Unsere Ergebnisse führen zu Implikationen nicht nur für Praktiker und Ausbilder, sondern auch für diejenigen, die bessere LLM-gestützte Softwareentwicklungswerkzeuge entwickeln wollen.

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Leitfaden zur Ansteuerung großer Sprachmodelle für die Code-Generierung: Eine empirische Charakterisierung

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

papers.abstract

Support