Falha ou Artefato? Repensando a Sensibilidade ao Prompt na Avaliação de LLMs
Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs
September 1, 2025
Autores: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI
Resumo
A sensibilidade ao prompt, referindo-se ao fenômeno em que a paráfrase (ou seja, repetir algo escrito ou falado usando palavras diferentes) leva a mudanças significativas no desempenho de modelos de linguagem de grande escala (LLMs), tem sido amplamente aceita como uma limitação central dos LLMs. Neste trabalho, revisitamos essa questão e perguntamos: A alta sensibilidade ao prompt amplamente relatada é realmente uma fraqueza inerente dos LLMs, ou é em grande parte um artefato dos processos de avaliação? Para responder a essa pergunta, avaliamos sistematicamente 7 LLMs (por exemplo, as famílias GPT e Gemini) em 6 benchmarks, incluindo tarefas de múltipla escolha e de resposta aberta, utilizando 12 modelos de prompt diversos. Descobrimos que grande parte da sensibilidade ao prompt decorre de métodos de avaliação heurísticos, incluindo pontuação de log-verossimilhança e correspondência rígida de respostas, que frequentemente ignoram respostas semanticamente corretas expressas por meio de formulações alternativas, como sinônimos ou paráfrases. Quando adotamos avaliações do tipo LLM-como-Juiz, observamos uma redução substancial na variância de desempenho e uma correlação consistentemente maior nas classificações dos modelos entre diferentes prompts. Nossos achados sugerem que os LLMs modernos são mais robustos a modelos de prompt do que se acreditava anteriormente, e que a sensibilidade ao prompt pode ser mais um artefato da avaliação do que uma falha nos modelos.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e.,
repeating something written or spoken using different words) leads to
significant changes in large language model (LLM) performance, has been widely
accepted as a core limitation of LLMs. In this work, we revisit this issue and
ask: Is the widely reported high prompt sensitivity truly an inherent weakness
of LLMs, or is it largely an artifact of evaluation processes? To answer this
question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family)
across 6 benchmarks, including both multiple-choice and open-ended tasks on 12
diverse prompt templates. We find that much of the prompt sensitivity stems
from heuristic evaluation methods, including log-likelihood scoring and rigid
answer matching, which often overlook semantically correct responses expressed
through alternative phrasings, such as synonyms or paraphrases. When we adopt
LLM-as-a-Judge evaluations, we observe a substantial reduction in performance
variance and a consistently higher correlation in model rankings across
prompts. Our findings suggest that modern LLMs are more robust to prompt
templates than previously believed, and that prompt sensitivity may be more an
artifact of evaluation than a flaw in the models.