구두점이 중요할 때: 대규모 언어 모델을 위한 프롬프트 견고성 방법 비교
When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs
August 15, 2025
저자: Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov
cs.AI
초록
대규모 언어 모델(LLMs)은 프롬프트의 문구와 형식에서 발생하는 미묘하고 비의미론적인 변화에 매우 민감합니다. 본 연구에서는 통일된 실험 프레임워크 내에서 프롬프트 견고성을 개선하기 위한 5가지 방법에 대한 첫 번째 체계적인 평가를 제시합니다. 우리는 Llama, Qwen 및 Gemma 계열의 8개 모델을 대상으로 Natural Instructions 데이터셋의 52개 작업에 대해 이러한 기술을 벤치마킹했습니다. 이 평가는 미세 조정(fine-tuned) 및 문맥 학습(in-context learning) 패러다임에서의 견고성 방법을 모두 포함하며, 다양한 유형의 분포 변화에 대한 일반화 능력을 테스트합니다. 마지막으로, GPT-4.1과 DeepSeek V3에 대한 분석을 확장하여 최첨단 모델들이 형식 변동에 대해 현재 얼마나 견고한지를 평가했습니다. 우리의 연구 결과는 이러한 견고성 방법들의 상대적 효과에 대한 실질적인 통찰을 제공함으로써, 실생활 애플리케이션에서 안정적이고 신뢰할 수 있는 LLM 성능을 목표로 하는 실무자들이 정보에 기반한 결정을 내릴 수 있도록 돕습니다. 코드: https://github.com/AIRI-Institute/when-punctuation-matters.
English
Large Language Models (LLMs) are highly sensitive to subtle, non-semantic
variations in prompt phrasing and formatting. In this work, we present the
first systematic evaluation of 5 methods for improving prompt robustness within
a unified experimental framework. We benchmark these techniques on 8 models
from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions
dataset. Our evaluation covers robustness methods from both fine-tuned and
in-context learning paradigms, and tests their generalization against multiple
types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and
DeepSeek V3 to assess frontier models' current robustness to format
perturbations. Our findings offer actionable insights into the relative
effectiveness of these robustness methods, enabling practitioners to make
informed decisions when aiming for stable and reliable LLM performance in
real-world applications. Code:
https://github.com/AIRI-Institute/when-punctuation-matters.