ChatPaper.aiChatPaper

Défaut ou Artéfact ? Repenser la sensibilité aux prompts dans l'évaluation des LLMs

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

September 1, 2025
papers.authors: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI

papers.abstract

La sensibilité aux prompts, qui désigne le phénomène où la paraphrase (c'est-à-dire, répéter quelque chose écrit ou dit en utilisant des mots différents) entraîne des changements significatifs dans les performances des grands modèles de langage (LLM), est largement reconnue comme une limitation fondamentale des LLM. Dans ce travail, nous revisitons cette question et nous demandons : la forte sensibilité aux prompts fréquemment rapportée est-elle véritablement une faiblesse inhérente des LLM, ou est-elle en grande partie un artefact des processus d'évaluation ? Pour répondre à cette question, nous évaluons systématiquement 7 LLM (par exemple, les familles GPT et Gemini) sur 6 benchmarks, incluant à la fois des tâches à choix multiples et des tâches ouvertes, en utilisant 12 modèles de prompts variés. Nous constatons qu'une grande partie de la sensibilité aux prompts découle de méthodes d'évaluation heuristiques, telles que le scoring par log-vraisemblance et la correspondance rigide des réponses, qui négligent souvent les réponses sémantiquement correctes exprimées à travers des formulations alternatives, comme des synonymes ou des paraphrases. Lorsque nous adoptons des évaluations basées sur le principe de "LLM-comme-juge", nous observons une réduction substantielle de la variance des performances et une corrélation plus élevée et plus cohérente dans le classement des modèles à travers les prompts. Nos résultats suggèrent que les LLM modernes sont plus robustes aux modèles de prompts qu'on ne le croyait auparavant, et que la sensibilité aux prompts pourrait être davantage un artefact de l'évaluation qu'un défaut des modèles.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.
PDF21September 3, 2025