ChatPaper.aiChatPaper

¿Defecto o artefacto? Repensando la sensibilidad al prompt en la evaluación de modelos de lenguaje grandes

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

September 1, 2025
Autores: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI

Resumen

La sensibilidad al prompt, que se refiere al fenómeno en el que la paráfrasis (es decir, repetir algo escrito o hablado usando palabras diferentes) conduce a cambios significativos en el rendimiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), ha sido ampliamente aceptada como una limitación fundamental de los LLM. En este trabajo, revisitamos este problema y nos preguntamos: ¿Es la alta sensibilidad al prompt, ampliamente reportada, realmente una debilidad inherente de los LLM, o es en gran medida un artefacto de los procesos de evaluación? Para responder a esta pregunta, evaluamos sistemáticamente 7 LLM (por ejemplo, las familias GPT y Gemini) en 6 benchmarks, incluyendo tareas de opción múltiple y de respuesta abierta, utilizando 12 plantillas de prompt diversas. Descubrimos que gran parte de la sensibilidad al prompt proviene de métodos de evaluación heurísticos, como la puntuación de verosimilitud logarítmica y la coincidencia rígida de respuestas, que a menudo pasan por alto respuestas semánticamente correctas expresadas mediante frases alternativas, como sinónimos o paráfrasis. Cuando adoptamos evaluaciones basadas en LLM-como-Juez, observamos una reducción sustancial en la variación del rendimiento y una correlación consistentemente más alta en las clasificaciones de los modelos entre diferentes prompts. Nuestros hallazgos sugieren que los LLM modernos son más robustos a las plantillas de prompt de lo que se creía anteriormente, y que la sensibilidad al prompt puede ser más un artefacto de la evaluación que un defecto en los modelos.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.
PDF21September 3, 2025