좋은 자연어 프롬프트의 조건은 무엇인가?
What Makes a Good Natural Language Prompt?
June 7, 2025
저자: Do Xuan Long, Duy Dinh, Ngoc-Hai Nguyen, Kenji Kawaguchi, Nancy F. Chen, Shafiq Joty, Min-Yen Kan
cs.AI
초록
대형 언어 모델(LLMs)이 점점 더 인간과 유사한 방향으로 발전하고 인간-AI 간의 커뮤니케이션이 보편화되면서, 프롬프팅(prompting)이 결정적인 요소로 부상했습니다. 그러나 자연어 프롬프트를 정확히 무엇이 평가하는지에 대한 개념적 합의는 제한적입니다. 우리는 이 질문을 해결하기 위해 2022년부터 2025년까지 주요 NLP 및 AI 컨퍼런스와 블로그에서 발표된 150편 이상의 프롬프팅 관련 논문을 메타 분석했습니다. 우리는 프롬프트 품질을 평가하기 위한 속성 중심적이고 인간 중심적인 프레임워크를 제안하며, 여기에는 6개 차원으로 분류된 21가지 속성이 포함됩니다. 그런 다음 기존 연구가 이러한 속성이 LLMs에 미치는 영향을 어떻게 평가하는지 살펴보고, 모델과 작업 간의 불균형적인 지원과 상당한 연구 격차를 밝혀냈습니다. 또한, 고품질 자연어 프롬프트에서 속성 간의 상관관계를 분석하여 프롬프팅 권장 사항을 도출했습니다. 그런 다음 추론 작업에서 다중 속성 프롬프트 개선을 실증적으로 탐구한 결과, 단일 속성 개선이 종종 가장 큰 영향을 미치는 것을 관찰했습니다. 마지막으로, 속성이 강화된 프롬프트에 대한 지시 튜닝(instruction-tuning)이 더 나은 추론 모델을 만들어낼 수 있음을 발견했습니다. 우리의 연구 결과는 속성 중심의 프롬프트 평가와 최적화를 위한 기반을 마련하며, 인간-AI 커뮤니케이션 간의 격차를 해소하고 새로운 프롬프팅 연구 방향을 열어줍니다.
English
As large language models (LLMs) have progressed towards more human-like and
human--AI communications have become prevalent, prompting has emerged as a
decisive component. However, there is limited conceptual consensus on what
exactly quantifies natural language prompts. We attempt to address this
question by conducting a meta-analysis surveying more than 150
prompting-related papers from leading NLP and AI conferences from 2022 to 2025
and blogs. We propose a property- and human-centric framework for evaluating
prompt quality, encompassing 21 properties categorized into six dimensions. We
then examine how existing studies assess their impact on LLMs, revealing their
imbalanced support across models and tasks, and substantial research gaps.
Further, we analyze correlations among properties in high-quality natural
language prompts, deriving prompting recommendations. We then empirically
explore multi-property prompt enhancements in reasoning tasks, observing that
single-property enhancements often have the greatest impact. Finally, we
discover that instruction-tuning on property-enhanced prompts can result in
better reasoning models. Our findings establish a foundation for
property-centric prompt evaluation and optimization, bridging the gaps between
human--AI communication and opening new prompting research directions.