Un solo carácter puede hacer o deshacer tus evaluaciones de LLM
A Single Character can Make or Break Your LLM Evals
October 2, 2025
Autores: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI
Resumen
Las evaluaciones comunes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) dependen de ejemplos de demostración para guiar las respuestas de los modelos hacia el estilo deseado. Si bien el número de ejemplos utilizados ha sido estudiado y estandarizado, la elección de cómo formatear los ejemplos ha sido menos investigada. En los protocolos de evaluación y en el uso del mundo real, los usuarios se enfrentan a la decisión de cómo separar los ejemplos en contexto: ¿usar una coma? ¿un salto de línea? ¿un punto y coma? ¿un hashtag? ¿etc.? Sorprendentemente, encontramos que esta elección aparentemente menor puede alterar drásticamente la calidad de la respuesta del modelo. En familias de modelos líderes (Llama, Qwen, Gemma), el rendimiento en MMLU, por ejemplo, puede variar en ±23% dependiendo de la elección del delimitador. De hecho, es posible manipular las clasificaciones de los modelos para colocar a cualquier modelo en la cima simplemente modificando el carácter único que separa los ejemplos. Encontramos que la fragilidad de los LLM persiste en diferentes temas, familias de modelos y no mejora con la escala. Al analizar las puntuaciones de las cabezas de atención, descubrimos que los delimitadores que funcionan bien dirigen la atención hacia los tokens clave en la entrada. Finalmente, exploramos métodos para mejorar la robustez de los LLM ante la elección del delimitador. Encontramos que especificar el delimitador seleccionado en el mensaje aumenta la robustez y ofrecemos recomendaciones prácticas sobre los delimitadores de mejor rendimiento para seleccionar.
English
Common Large Language model (LLM) evaluations rely on demonstration examples
to steer models' responses to the desired style. While the number of examples
used has been studied and standardized, the choice of how to format examples is
less investigated. In evaluation protocols and real world usage, users face the
choice how to separate in-context examples: use a comma? new line? semi-colon?
hashtag? etc.? Surprisingly, we find this seemingly minor choice can
dramatically alter model response quality. Across leading model families
(Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23%
depending on the choice of delimiter. In fact, one can manipulate model
rankings to put any model in the lead by only modifying the single character
separating examples. We find LLMs' brittleness pervades topics, model families,
and doesn't improve with scale. By probing attention head scores, we find that
good-performing delimiters steer attention towards key tokens in the input.
Finally, we explore methods to improve LLMs' robustness to the choice of
delimiter. We find specifying the selected delimiter in the prompt boosts
robustness and offer practical recommendations for the best-performing
delimiters to select.