Fout of Artefact? Een Heroverweging van Promptgevoeligheid bij de Evaluatie van LLM's
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
September 1, 2025
Auteurs: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI
Samenvatting
Promptgevoeligheid, verwijzend naar het fenomeen waarbij parafraseren (d.w.z. iets herhalen dat geschreven of gesproken is met andere woorden) leidt tot significante veranderingen in de prestaties van grote taalmodelen (LLM's), wordt algemeen beschouwd als een kernbeperking van LLM's. In dit werk herzien we dit probleem en stellen de vraag: Is de veelgerapporteerde hoge promptgevoeligheid werkelijk een inherente zwakte van LLM's, of is het grotendeels een artefact van evaluatieprocessen? Om deze vraag te beantwoorden, evalueren we systematisch 7 LLM's (bijv. de GPT- en Gemini-families) op 6 benchmarks, inclusief zowel meerkeuze- als open-eindetaken, met behulp van 12 diverse promptsjablonen. We ontdekken dat een groot deel van de promptgevoeligheid voortkomt uit heuristische evaluatiemethoden, zoals log-waarschijnlijkheidsscoring en rigide antwoordmatching, die vaak semantisch correcte reacties die via alternatieve formuleringen zoals synoniemen of parafrases worden uitgedrukt, over het hoofd zien. Wanneer we LLM-as-a-Judge-evaluaties toepassen, observeren we een aanzienlijke vermindering in prestatievariaties en een consistent hogere correlatie in modelrangschikkingen tussen verschillende prompts. Onze bevindingen suggereren dat moderne LLM's robuuster zijn tegenover promptsjablonen dan eerder werd aangenomen, en dat promptgevoeligheid meer een artefact van evaluatie kan zijn dan een gebrek in de modellen zelf.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e.,
repeating something written or spoken using different words) leads to
significant changes in large language model (LLM) performance, has been widely
accepted as a core limitation of LLMs. In this work, we revisit this issue and
ask: Is the widely reported high prompt sensitivity truly an inherent weakness
of LLMs, or is it largely an artifact of evaluation processes? To answer this
question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family)
across 6 benchmarks, including both multiple-choice and open-ended tasks on 12
diverse prompt templates. We find that much of the prompt sensitivity stems
from heuristic evaluation methods, including log-likelihood scoring and rigid
answer matching, which often overlook semantically correct responses expressed
through alternative phrasings, such as synonyms or paraphrases. When we adopt
LLM-as-a-Judge evaluations, we observe a substantial reduction in performance
variance and a consistently higher correlation in model rankings across
prompts. Our findings suggest that modern LLMs are more robust to prompt
templates than previously believed, and that prompt sensitivity may be more an
artifact of evaluation than a flaw in the models.