Что делает хороший промпт для обработки естественного языка?
What Makes a Good Natural Language Prompt?
June 7, 2025
Авторы: Do Xuan Long, Duy Dinh, Ngoc-Hai Nguyen, Kenji Kawaguchi, Nancy F. Chen, Shafiq Joty, Min-Yen Kan
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) продвигаются в сторону более человекообразного поведения, а взаимодействие между человеком и ИИ становится повсеместным, формулирование запросов (prompting) стало ключевым компонентом. Однако существует ограниченное концептуальное согласие относительно того, что именно определяет качество запросов на естественном языке. Мы пытаемся ответить на этот вопрос, проведя метаанализ более 150 работ, связанных с формулированием запросов, представленных на ведущих конференциях по NLP и ИИ с 2022 по 2025 год, а также в блогах. Мы предлагаем ориентированную на свойства и человека структуру для оценки качества запросов, включающую 21 свойство, распределенное по шести измерениям. Затем мы исследуем, как существующие работы оценивают их влияние на LLM, выявляя несбалансированную поддержку этих свойств в различных моделях и задачах, а также значительные пробелы в исследованиях. Далее мы анализируем корреляции между свойствами в высококачественных запросах на естественном языке, формулируя рекомендации по их созданию. Эмпирически исследуем улучшение запросов с учетом нескольких свойств в задачах логического рассуждения, отмечая, что улучшение по одному свойству часто оказывает наибольшее влияние. Наконец, мы обнаруживаем, что тонкая настройка моделей на запросах с улучшенными свойствами может привести к созданию более эффективных моделей для рассуждений. Наши результаты закладывают основу для оценки и оптимизации запросов с учетом их свойств, устраняя разрывы в коммуникации между человеком и ИИ и открывая новые направления для исследований в области формулирования запросов.
English
As large language models (LLMs) have progressed towards more human-like and
human--AI communications have become prevalent, prompting has emerged as a
decisive component. However, there is limited conceptual consensus on what
exactly quantifies natural language prompts. We attempt to address this
question by conducting a meta-analysis surveying more than 150
prompting-related papers from leading NLP and AI conferences from 2022 to 2025
and blogs. We propose a property- and human-centric framework for evaluating
prompt quality, encompassing 21 properties categorized into six dimensions. We
then examine how existing studies assess their impact on LLMs, revealing their
imbalanced support across models and tasks, and substantial research gaps.
Further, we analyze correlations among properties in high-quality natural
language prompts, deriving prompting recommendations. We then empirically
explore multi-property prompt enhancements in reasoning tasks, observing that
single-property enhancements often have the greatest impact. Finally, we
discover that instruction-tuning on property-enhanced prompts can result in
better reasoning models. Our findings establish a foundation for
property-centric prompt evaluation and optimization, bridging the gaps between
human--AI communication and opening new prompting research directions.