ChatPaper.aiChatPaper

Один символ может решить успех или провал ваших оценок языковых моделей

A Single Character can Make or Break Your LLM Evals

October 2, 2025
Авторы: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI

Аннотация

В стандартных подходах к оценке больших языковых моделей (LLM) используются демонстрационные примеры для направления ответов модели в желаемый стиль. Хотя количество используемых примеров было изучено и стандартизировано, выбор формата примеров исследован в меньшей степени. В протоколах оценки и реальном использовании пользователи сталкиваются с выбором, как разделять примеры в контексте: использовать запятую? новую строку? точку с запятой? хэштег? и т.д. Удивительно, но мы обнаружили, что этот, казалось бы, незначительный выбор может существенно повлиять на качество ответов модели. Для ведущих семейств моделей (Llama, Qwen, Gemma) производительность на тесте MMLU, например, может варьироваться на ±23% в зависимости от выбранного разделителя. Фактически, можно манипулировать рейтингами моделей, выводя любую модель на первое место, просто изменяя один символ, разделяющий примеры. Мы обнаружили, что хрупкость LLM проявляется в различных темах и семействах моделей и не улучшается с увеличением масштаба. Исследуя показатели внимания (attention head scores), мы выяснили, что хорошо работающие разделители направляют внимание на ключевые токены во входных данных. Наконец, мы исследуем методы повышения устойчивости LLM к выбору разделителя. Мы обнаружили, что указание выбранного разделителя в промпте повышает устойчивость, и предлагаем практические рекомендации по выбору наиболее эффективных разделителей.
English
Common Large Language model (LLM) evaluations rely on demonstration examples to steer models' responses to the desired style. While the number of examples used has been studied and standardized, the choice of how to format examples is less investigated. In evaluation protocols and real world usage, users face the choice how to separate in-context examples: use a comma? new line? semi-colon? hashtag? etc.? Surprisingly, we find this seemingly minor choice can dramatically alter model response quality. Across leading model families (Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23% depending on the choice of delimiter. In fact, one can manipulate model rankings to put any model in the lead by only modifying the single character separating examples. We find LLMs' brittleness pervades topics, model families, and doesn't improve with scale. By probing attention head scores, we find that good-performing delimiters steer attention towards key tokens in the input. Finally, we explore methods to improve LLMs' robustness to the choice of delimiter. We find specifying the selected delimiter in the prompt boosts robustness and offer practical recommendations for the best-performing delimiters to select.
PDF32October 9, 2025