Руководство по составлению промптов для больших языковых моделей при генерации кода: эмпирическая характеристика

Аннотация

Крупные языковые модели (LLM) в настоящее время широко используются для решения различных задач в области разработки программного обеспечения, в первую очередь для генерации кода. Предыдущие исследования показали, как грамотное проектирование промптов (prompt engineering) может помочь разработчикам улучшать свои промпты для генерации кода. Однако до сих пор не существовало конкретных руководств, которые бы направляли разработчиков в создании эффективных промптов для этой цели. В данной работе мы выводим и оцениваем специализированные рекомендации по оптимизации промптов для разработки. Сначала мы используем итеративный тест-ориентированный подход для автоматического улучшения промптов генерации кода и анализируем результаты этого процесса, чтобы выявить элементы улучшения промптов, которые приводят к успешному прохождению тестов. На основе этих элементов мы формулируем 10 рекомендаций по улучшению промптов, связанных с лучшим описанием входных и выходных данных, предусловий и постусловий, предоставлением примеров, различными типами деталей и устранением неоднозначностей. Мы провели оценку с участием 50 практикующих специалистов, которые сообщили о частоте использования выявленных паттернов улучшения промптов, а также о их perceived usefulness (воспринимаемой полезности), которая не всегда совпадала с фактической частотой использования до ознакомления с нашими рекомендациями. Наши результаты имеют значение не только для практиков и преподавателей, но и для тех, кто стремится создавать более совершенные инструменты для разработки ПО с поддержкой LLM.

English

Large Language Models (LLMs) are nowadays extensively used for various types of software engineering tasks, primarily code generation. Previous research has shown how suitable prompt engineering could help developers in improving their code generation prompts. However, so far, there do not exist specific guidelines driving developers towards writing suitable prompts for code generation. In this work, we derive and evaluate development-specific prompt optimization guidelines. First, we use an iterative, test-driven approach to automatically refine code generation prompts, and we analyze the outcome of this process to identify prompt improvement items that lead to test passes. We use such elements to elicit 10 guidelines for prompt improvement, related to better specifying I/O, pre-post conditions, providing examples, various types of details, or clarifying ambiguities. We conduct an assessment with 50 practitioners, who report their usage of the elicited prompt improvement patterns, as well as their perceived usefulness, which does not always correspond to the actual usage before knowing our guidelines. Our results lead to implications not only for practitioners and educators, but also for those aimed at creating better LLM-aided software development tools.

Руководство по составлению промптов для больших языковых моделей при генерации кода: эмпирическая характеристика

Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Аннотация

Support