Fout of Artefact? Een Heroverweging van Promptgevoeligheid bij de Evaluatie van LLM's

Samenvatting

Promptgevoeligheid, verwijzend naar het fenomeen waarbij parafraseren (d.w.z. iets herhalen dat geschreven of gesproken is met andere woorden) leidt tot significante veranderingen in de prestaties van grote taalmodelen (LLM's), wordt algemeen beschouwd als een kernbeperking van LLM's. In dit werk herzien we dit probleem en stellen de vraag: Is de veelgerapporteerde hoge promptgevoeligheid werkelijk een inherente zwakte van LLM's, of is het grotendeels een artefact van evaluatieprocessen? Om deze vraag te beantwoorden, evalueren we systematisch 7 LLM's (bijv. de GPT- en Gemini-families) op 6 benchmarks, inclusief zowel meerkeuze- als open-eindetaken, met behulp van 12 diverse promptsjablonen. We ontdekken dat een groot deel van de promptgevoeligheid voortkomt uit heuristische evaluatiemethoden, zoals log-waarschijnlijkheidsscoring en rigide antwoordmatching, die vaak semantisch correcte reacties die via alternatieve formuleringen zoals synoniemen of parafrases worden uitgedrukt, over het hoofd zien. Wanneer we LLM-as-a-Judge-evaluaties toepassen, observeren we een aanzienlijke vermindering in prestatievariaties en een consistent hogere correlatie in modelrangschikkingen tussen verschillende prompts. Onze bevindingen suggereren dat moderne LLM's robuuster zijn tegenover promptsjablonen dan eerder werd aangenomen, en dat promptgevoeligheid meer een artefact van evaluatie kan zijn dan een gebrek in de modellen zelf.

English

Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.

Fout of Artefact? Een Heroverweging van Promptgevoeligheid bij de Evaluatie van LLM's

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

Samenvatting

Support