ChatPaper.aiChatPaper

欠陥か、それとも芸術か? LLM評価におけるプロンプト感度の再考

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

September 1, 2025
著者: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI

要旨

プロンプト感応性(Prompt Sensitivity)とは、言い換え(すなわち、異なる言葉を用いて書かれたり話されたりした内容を繰り返すこと)が大規模言語モデル(LLM)の性能に大きな変化をもたらす現象を指し、LLMの核心的な制約として広く認識されてきました。本研究では、この問題を再検討し、広く報告されている高いプロンプト感応性は、本当にLLMの本質的な弱点なのか、それとも評価プロセスのアーティファクト(人工的産物)に過ぎないのかを問います。この問いに答えるため、我々は7つのLLM(例えばGPTやGeminiファミリー)を6つのベンチマークで体系的に評価し、12の多様なプロンプトテンプレートを用いて、多肢選択問題と自由回答タスクの両方を実施しました。その結果、プロンプト感応性の多くは、ヒューリスティックな評価方法(例えば、対数尤度スコアリングや厳密な回答マッチング)に起因していることがわかりました。これらの方法は、同義語や言い換えなど、代替的な表現で示された意味的に正しい回答を見落とすことが多いのです。我々がLLM-as-a-Judge(LLMを評価者として用いる)評価を採用すると、性能のばらつきが大幅に減少し、プロンプト間でのモデルランキングの相関が一貫して高くなることが観察されました。我々の知見は、現代のLLMがこれまで考えられていた以上にプロンプトテンプレートに対して頑健であり、プロンプト感応性はモデルの欠陥というよりも評価のアーティファクトである可能性が高いことを示唆しています。
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.
PDF21September 3, 2025