ChatPaper.aiChatPaper

Ошибка или артефакт? Переосмысление чувствительности к промптам при оценке языковых моделей

Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs

September 1, 2025
Авторы: Andong Hua, Kenan Tang, Chenhe Gu, Jindong Gu, Eric Wong, Yao Qin
cs.AI

Аннотация

Чувствительность к формулировкам запросов, под которой понимается явление, когда перефразирование (т.е. повторение написанного или сказанного с использованием других слов) приводит к значительным изменениям в производительности крупных языковых моделей (LLM), широко признана как ключевое ограничение LLM. В данной работе мы возвращаемся к этому вопросу и задаемся следующим: действительно ли широко обсуждаемая высокая чувствительность к формулировкам запросов является врожденной слабостью LLM, или это в значительной степени артефакт процессов оценки? Чтобы ответить на этот вопрос, мы систематически оцениваем 7 LLM (например, семейства GPT и Gemini) на 6 тестовых наборах, включая как задачи с множественным выбором, так и открытые задания, используя 12 различных шаблонов запросов. Мы обнаруживаем, что значительная часть чувствительности к формулировкам связана с эвристическими методами оценки, такими как оценка на основе логарифмического правдоподобия и строгое сопоставление ответов, которые часто игнорируют семантически правильные ответы, выраженные через альтернативные формулировки, такие как синонимы или перефразирования. Когда мы применяем подход "LLM-как-судья" для оценки, мы наблюдаем значительное снижение вариативности производительности и более высокую согласованность в ранжировании моделей при использовании различных формулировок запросов. Наши результаты позволяют предположить, что современные LLM более устойчивы к шаблонам запросов, чем считалось ранее, и что чувствительность к формулировкам может быть скорее артефактом оценки, чем недостатком самих моделей.
English
Prompt sensitivity, referring to the phenomenon where paraphrasing (i.e., repeating something written or spoken using different words) leads to significant changes in large language model (LLM) performance, has been widely accepted as a core limitation of LLMs. In this work, we revisit this issue and ask: Is the widely reported high prompt sensitivity truly an inherent weakness of LLMs, or is it largely an artifact of evaluation processes? To answer this question, we systematically evaluate 7 LLMs (e.g., GPT and Gemini family) across 6 benchmarks, including both multiple-choice and open-ended tasks on 12 diverse prompt templates. We find that much of the prompt sensitivity stems from heuristic evaluation methods, including log-likelihood scoring and rigid answer matching, which often overlook semantically correct responses expressed through alternative phrasings, such as synonyms or paraphrases. When we adopt LLM-as-a-Judge evaluations, we observe a substantial reduction in performance variance and a consistently higher correlation in model rankings across prompts. Our findings suggest that modern LLMs are more robust to prompt templates than previously believed, and that prompt sensitivity may be more an artifact of evaluation than a flaw in the models.
PDF21September 3, 2025