Fehler oder Artefakt? Eine Neubewertung der Prompt-Empfindlichkeit bei der Evaluierung von LLMs

papers.abstract

Prompt-Sensitivität, die sich auf das Phänomen bezieht, bei dem Paraphrasierung (d.h. die Wiederholung von etwas Geschriebenem oder Gesprochenem mit anderen Worten) zu erheblichen Veränderungen in der Leistung von großen Sprachmodellen (LLMs) führt, wurde weithin als eine zentrale Einschränkung von LLMs akzeptiert. In dieser Arbeit greifen wir dieses Thema erneut auf und fragen: Ist die häufig berichtete hohe Prompt-Sensitivität tatsächlich eine inhärente Schwäche von LLMs, oder handelt es sich weitgehend um ein Artefakt der Evaluierungsprozesse? Um diese Frage zu beantworten, evaluieren wir systematisch 7 LLMs (z.B. die GPT- und Gemini-Familie) über 6 Benchmarks hinweg, einschließlich sowohl Multiple-Choice- als auch offener Aufgaben auf 12 verschiedenen Prompt-Vorlagen. Wir stellen fest, dass ein Großteil der Prompt-Sensitivität auf heuristischen Evaluierungsmethoden beruht, einschließlich Log-Likelihood-Bewertung und starrer Antwortabgleichung, die oft semantisch korrekte Antworten, die durch alternative Formulierungen wie Synonyme oder Paraphrasen ausgedrückt werden, übersehen. Wenn wir LLM-as-a-Judge-Evaluierungen verwenden, beobachten wir eine erhebliche Reduzierung der Leistungsvarianz und eine durchweg höhere Korrelation in den Modellrankings über verschiedene Prompts hinweg. Unsere Ergebnisse deuten darauf hin, dass moderne LLMs robuster gegenüber Prompt-Vorlagen sind als bisher angenommen, und dass die Prompt-Sensitivität eher ein Artefakt der Evaluierung als ein Fehler in den Modellen sein könnte.

English

Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.

Fehler oder Artefakt? Eine Neubewertung der Prompt-Empfindlichkeit bei der Evaluierung von LLMs

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

papers.abstract

Support