Ein einzelnes Zeichen kann Ihre LLM-Evaluierungen machen oder brechen.
A Single Character can Make or Break Your LLM Evals
October 2, 2025
papers.authors: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI
papers.abstract
Gängige Evaluierungen von Large Language Models (LLMs) stützen sich auf Demonstrationsbeispiele, um die Antworten der Modelle in den gewünschten Stil zu lenken. Während die Anzahl der verwendeten Beispiele untersucht und standardisiert wurde, ist die Wahl der Formatierung der Beispiele weniger erforscht. In Evaluierungsprotokollen und im praktischen Einsatz stehen Nutzer vor der Entscheidung, wie sie In-Context-Beispiele trennen sollen: ein Komma? eine neue Zeile? ein Semikolon? ein Hashtag? usw. Überraschenderweise stellen wir fest, dass diese scheinbar unbedeutende Wahl die Qualität der Modellantworten erheblich beeinflussen kann. Bei führenden Modellfamilien (Llama, Qwen, Gemma) kann die Leistung auf MMLU beispielsweise um ±23 % variieren, abhängig von der Wahl des Trennzeichens. Tatsächlich kann man die Modellranglisten manipulieren, um jedes Modell an die Spitze zu setzen, indem man nur das einzelne Zeichen ändert, das die Beispiele trennt. Wir stellen fest, dass die Anfälligkeit von LLMs Themen, Modellfamilien und Skalierung durchdringt und sich mit zunehmender Skalierung nicht verbessert. Durch die Untersuchung von Attention-Head-Scores finden wir heraus, dass gut funktionierende Trennzeichen die Aufmerksamkeit auf Schlüssel-Tokens in der Eingabe lenken. Schließlich erkunden wir Methoden, um die Robustheit von LLMs gegenüber der Wahl des Trennzeichens zu verbessern. Wir stellen fest, dass die Angabe des ausgewählten Trennzeichens im Prompt die Robustheit erhöht, und bieten praktische Empfehlungen für die Auswahl der leistungsstärksten Trennzeichen.
English
Common Large Language model (LLM) evaluations rely on demonstration examples
to steer models' responses to the desired style. While the number of examples
used has been studied and standardized, the choice of how to format examples is
less investigated. In evaluation protocols and real world usage, users face the
choice how to separate in-context examples: use a comma? new line? semi-colon?
hashtag? etc.? Surprisingly, we find this seemingly minor choice can
dramatically alter model response quality. Across leading model families
(Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23%
depending on the choice of delimiter. In fact, one can manipulate model
rankings to put any model in the lead by only modifying the single character
separating examples. We find LLMs' brittleness pervades topics, model families,
and doesn't improve with scale. By probing attention head scores, we find that
good-performing delimiters steer attention towards key tokens in the input.
Finally, we explore methods to improve LLMs' robustness to the choice of
delimiter. We find specifying the selected delimiter in the prompt boosts
robustness and offer practical recommendations for the best-performing
delimiters to select.