Een enkel teken kan je LLM-evaluaties maken of breken.
A Single Character can Make or Break Your LLM Evals
October 2, 2025
Auteurs: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI
Samenvatting
Gangbare evaluaties van grote taalmodellen (LLM's) vertrouwen op voorbeelden
om de reacties van modellen in de gewenste stijl te sturen. Hoewel het aantal
gebruikte voorbeelden is bestudeerd en gestandaardiseerd, is de keuze van hoe
voorbeelden te formatteren minder onderzocht. In evaluatieprotocollen en in de
praktijk staan gebruikers voor de keuze hoe in-context voorbeelden te scheiden:
een komma gebruiken? een nieuwe regel? een puntkomma? een hashtag? etc.?
Verrassend genoeg ontdekken we dat deze schijnbaar kleine keuze de kwaliteit
van modelreacties drastisch kan beïnvloeden. Bij toonaangevende modelfamilies
(Llama, Qwen, Gemma) kan de prestaties op MMLU bijvoorbeeld variëren met ±23%
afhankelijk van de keuze van het scheidingsteken. Sterker nog, men kan
modelrangschikkingen manipuleren om elk model aan de top te plaatsen door slechts
het ene karakter te wijzigen dat voorbeelden scheidt. We ontdekken dat de
broosheid van LLM's onderwerpen en modelfamilies doordringt, en niet verbetert
met schaal. Door aandachtsscores van aandachtskoppen te onderzoeken, vinden we
dat goed presterende scheidingstekens de aandacht sturen naar sleuteltokens in
de invoer. Ten slotte verkennen we methoden om de robuustheid van LLM's tegenover
de keuze van scheidingstekens te verbeteren. We ontdekken dat het specificeren
van het geselecteerde scheidingsteken in de prompt de robuustheid verhoogt en
bieden praktische aanbevelingen voor de best presterende scheidingstekens om
te selecteren.
English
Common Large Language model (LLM) evaluations rely on demonstration examples
to steer models' responses to the desired style. While the number of examples
used has been studied and standardized, the choice of how to format examples is
less investigated. In evaluation protocols and real world usage, users face the
choice how to separate in-context examples: use a comma? new line? semi-colon?
hashtag? etc.? Surprisingly, we find this seemingly minor choice can
dramatically alter model response quality. Across leading model families
(Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23%
depending on the choice of delimiter. In fact, one can manipulate model
rankings to put any model in the lead by only modifying the single character
separating examples. We find LLMs' brittleness pervades topics, model families,
and doesn't improve with scale. By probing attention head scores, we find that
good-performing delimiters steer attention towards key tokens in the input.
Finally, we explore methods to improve LLMs' robustness to the choice of
delimiter. We find specifying the selected delimiter in the prompt boosts
robustness and offer practical recommendations for the best-performing
delimiters to select.