Fehler oder Artefakt? Eine Neubewertung der Prompt-Empfindlichkeit bei der Evaluierung von LLMs
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
September 1, 2025
papers.authors: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI
papers.abstract
Prompt-Sensitivität, die sich auf das Phänomen bezieht, bei dem Paraphrasierung (d.h. die Wiederholung von etwas Geschriebenem oder Gesprochenem mit anderen Worten) zu erheblichen Veränderungen in der Leistung von großen Sprachmodellen (LLMs) führt, wurde weithin als eine zentrale Einschränkung von LLMs akzeptiert. In dieser Arbeit greifen wir dieses Thema erneut auf und fragen: Ist die häufig berichtete hohe Prompt-Sensitivität tatsächlich eine inhärente Schwäche von LLMs, oder handelt es sich weitgehend um ein Artefakt der Evaluierungsprozesse? Um diese Frage zu beantworten, evaluieren wir systematisch 7 LLMs (z.B. die GPT- und Gemini-Familie) über 6 Benchmarks hinweg, einschließlich sowohl Multiple-Choice- als auch offener Aufgaben auf 12 verschiedenen Prompt-Vorlagen. Wir stellen fest, dass ein Großteil der Prompt-Sensitivität auf heuristischen Evaluierungsmethoden beruht, einschließlich Log-Likelihood-Bewertung und starrer Antwortabgleichung, die oft semantisch korrekte Antworten, die durch alternative Formulierungen wie Synonyme oder Paraphrasen ausgedrückt werden, übersehen. Wenn wir LLM-as-a-Judge-Evaluierungen verwenden, beobachten wir eine erhebliche Reduzierung der Leistungsvarianz und eine durchweg höhere Korrelation in den Modellrankings über verschiedene Prompts hinweg. Unsere Ergebnisse deuten darauf hin, dass moderne LLMs robuster gegenüber Prompt-Vorlagen sind als bisher angenommen, und dass die Prompt-Sensitivität eher ein Artefakt der Evaluierung als ein Fehler in den Modellen sein könnte.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e.,
repeating something written or spoken using different words) leads to
significant changes in large language model (LLM) performance, has been widely
accepted as a core limitation of LLMs. In this work, we revisit this issue and
ask: Is the widely reported high prompt sensitivity truly an inherent weakness
of LLMs, or is it largely an artifact of evaluation processes? To answer this
question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family)
across 6 benchmarks, including both multiple-choice and open-ended tasks on 12
diverse prompt templates. We find that much of the prompt sensitivity stems
from heuristic evaluation methods, including log-likelihood scoring and rigid
answer matching, which often overlook semantically correct responses expressed
through alternative phrasings, such as synonyms or paraphrases. When we adopt
LLM-as-a-Judge evaluations, we observe a substantial reduction in performance
variance and a consistently higher correlation in model rankings across
prompts. Our findings suggest that modern LLMs are more robust to prompt
templates than previously believed, and that prompt sensitivity may be more an
artifact of evaluation than a flaw in the models.