Diretrizes para Prompts de Modelos de Linguagem de Grande Porte na Geração de Código: Uma Caracterização Empírica

Resumo

Os Grandes Modelos de Linguagem (LLMs) são atualmente amplamente utilizados para vários tipos de tarefas de engenharia de software, principalmente para geração de código. Pesquisas anteriores demonstraram como uma engenharia de *prompts* adequada pode ajudar desenvolvedores a melhorar seus *prompts* de geração de código. No entanto, até o momento, não existem diretrizes específicas que orientem os desenvolvedores na escrita de *prompts* adequados para geração de código. Neste trabalho, derivamos e avaliamos diretrizes específicas de desenvolvimento para otimização de *prompts*. Primeiro, utilizamos uma abordagem iterativa e orientada a testes para refinar automaticamente *prompts* de geração de código, e analisamos o resultado desse processo para identificar itens de melhoria de *prompt* que levam à aprovação de testes. Utilizamos esses elementos para eliciar 10 diretrizes para melhoria de *prompts*, relacionadas a uma melhor especificação de entradas/saídas (E/S), pré e pós-condições, fornecimento de exemplos, vários tipos de detalhes ou esclarecimento de ambiguidades. Realizamos uma avaliação com 50 profissionais, que relataram seu uso dos padrões de melhoria de *prompt* elicitados, bem como sua percepção de utilidade, que nem sempre corresponde ao uso real antes do conhecimento de nossas diretrizes. Nossos resultados levam a implicações não apenas para profissionais e educadores, mas também para aqueles que visam criar melhores ferramentas de desenvolvimento de software auxiliadas por LLM.

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Diretrizes para Prompts de Modelos de Linguagem de Grande Porte na Geração de Código: Uma Caracterização Empírica

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Resumo

Support