Difetto o Artefatto? Ripensare la Sensibilità al Prompt nella Valutazione degli LLM
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
September 1, 2025
Autori: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI
Abstract
La sensibilità al prompt, riferita al fenomeno in cui la parafrasi (cioè ripetere qualcosa scritto o detto utilizzando parole diverse) porta a cambiamenti significativi nelle prestazioni dei modelli linguistici di grandi dimensioni (LLM), è stata ampiamente accettata come una limitazione fondamentale degli LLM. In questo lavoro, riprendiamo questa questione e ci chiediamo: l'elevata sensibilità al prompt ampiamente riportata è davvero una debolezza intrinseca degli LLM, o è in gran parte un artefatto dei processi di valutazione? Per rispondere a questa domanda, valutiamo sistematicamente 7 LLM (ad esempio, le famiglie GPT e Gemini) su 6 benchmark, includendo sia compiti a scelta multipla che a risposta aperta, utilizzando 12 modelli di prompt diversi. Scopriamo che gran parte della sensibilità al prompt deriva da metodi di valutazione euristici, come lo scoring basato sulla log-verosimiglianza e il matching rigido delle risposte, che spesso trascurano risposte semanticamente corrette espresse attraverso formulazioni alternative, come sinonimi o parafrasi. Quando adottiamo valutazioni basate su LLM-as-a-Judge, osserviamo una riduzione sostanziale della varianza delle prestazioni e una correlazione costantemente più alta nei ranking dei modelli tra i prompt. I nostri risultati suggeriscono che i moderni LLM sono più robusti ai modelli di prompt di quanto si credesse in precedenza, e che la sensibilità al prompt potrebbe essere più un artefatto della valutazione che un difetto nei modelli.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e.,
repeating something written or spoken using different words) leads to
significant changes in large language model (LLM) performance, has been widely
accepted as a core limitation of LLMs. In this work, we revisit this issue and
ask: Is the widely reported high prompt sensitivity truly an inherent weakness
of LLMs, or is it largely an artifact of evaluation processes? To answer this
question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family)
across 6 benchmarks, including both multiple-choice and open-ended tasks on 12
diverse prompt templates. We find that much of the prompt sensitivity stems
from heuristic evaluation methods, including log-likelihood scoring and rigid
answer matching, which often overlook semantically correct responses expressed
through alternative phrasings, such as synonyms or paraphrases. When we adopt
LLM-as-a-Judge evaluations, we observe a substantial reduction in performance
variance and a consistently higher correlation in model rankings across
prompts. Our findings suggest that modern LLMs are more robust to prompt
templates than previously believed, and that prompt sensitivity may be more an
artifact of evaluation than a flaw in the models.