Guide pour solliciter les grands modèles de langage en génération de code : une caractérisation empirique

Résumé

Les modèles de langage de grande taille (LLM) sont aujourd'hui largement utilisés pour diverses tâches de génie logiciel, principalement la génération de code. Des recherches antérieures ont montré qu'une ingénierie des prompts adaptée pouvait aider les développeurs à améliorer leurs prompts de génération de code. Cependant, jusqu'à présent, il n'existe pas de lignes directrices spécifiques orientant les développeurs vers la rédaction de prompts appropriés pour la génération de code. Dans ce travail, nous dérivons et évaluons des lignes directrices spécifiques au développement pour l'optimisation des prompts. Premièrement, nous utilisons une approche itérative et pilotée par les tests pour affiner automatiquement les prompts de génération de code, et nous analysons les résultats de ce processus pour identifier les éléments d'amélioration des prompts qui conduisent à la réussite des tests. Nous utilisons ces éléments pour formuler 10 lignes directrices pour l'amélioration des prompts, concernant une meilleure spécification des entrées/sorties, des pré/post-conditions, la fourniture d'exemples, divers types de détails ou la clarification des ambiguïtés. Nous menons une évaluation avec 50 praticiens, qui rapportent leur utilisation des modèles d'amélioration des prompts identifiés, ainsi que leur perception de l'utilité, qui ne correspond pas toujours à l'utilisation réelle avant la connaissance de nos lignes directrices. Nos résultats ont des implications non seulement pour les praticiens et les éducateurs, mais aussi pour ceux qui visent à créer de meilleurs outils de développement logiciel assistés par LLM.

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Guide pour solliciter les grands modèles de langage en génération de code : une caractérisation empirique

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Résumé

Support