Guías para Prompts de Modelos de Lenguaje a Gran Escala en la Generación de Código: Una Caracterización Empírica

Resumen

Los Modelos de Lenguaje Grandes (LLM) se utilizan hoy en día ampliamente para diversos tipos de tareas de ingeniería de software, principalmente para la generación de código. Investigaciones previas han demostrado cómo una ingeniería de prompts adecuada podría ayudar a los desarrolladores a mejorar sus prompts para la generación de código. Sin embargo, hasta ahora, no existen directrices específicas que orienten a los desarrolladores hacia la escritura de prompts adecuados para la generación de código. En este trabajo, derivamos y evaluamos directrices de optimización de prompts específicas para el desarrollo. Primero, utilizamos un enfoque iterativo y basado en pruebas para refinar automáticamente los prompts de generación de código, y analizamos el resultado de este proceso para identificar elementos de mejora del prompt que conduzcan a la superación de las pruebas. Utilizamos dichos elementos para elicitar 10 directrices para la mejora de prompts, relacionadas con especificar mejor las entradas/salidas (E/S), las precondiciones y postcondiciones, proporcionar ejemplos, varios tipos de detalles o aclarar ambigüedades. Realizamos una evaluación con 50 profesionales, quienes reportan su uso de los patrones de mejora de prompts elicita

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Guías para Prompts de Modelos de Lenguaje a Gran Escala en la Generación de Código: Una Caracterización Empírica

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Resumen

Support