ChatPaper.aiChatPaper

Een enkel teken kan je LLM-evaluaties maken of breken.

A Single Character can Make or Break Your LLM Evals

October 2, 2025
Auteurs: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI

Samenvatting

Gangbare evaluaties van grote taalmodellen (LLM's) vertrouwen op voorbeelden om de reacties van modellen in de gewenste stijl te sturen. Hoewel het aantal gebruikte voorbeelden is bestudeerd en gestandaardiseerd, is de keuze van hoe voorbeelden te formatteren minder onderzocht. In evaluatieprotocollen en in de praktijk staan gebruikers voor de keuze hoe in-context voorbeelden te scheiden: een komma gebruiken? een nieuwe regel? een puntkomma? een hashtag? etc.? Verrassend genoeg ontdekken we dat deze schijnbaar kleine keuze de kwaliteit van modelreacties drastisch kan beïnvloeden. Bij toonaangevende modelfamilies (Llama, Qwen, Gemma) kan de prestaties op MMLU bijvoorbeeld variëren met ±23% afhankelijk van de keuze van het scheidingsteken. Sterker nog, men kan modelrangschikkingen manipuleren om elk model aan de top te plaatsen door slechts het ene karakter te wijzigen dat voorbeelden scheidt. We ontdekken dat de broosheid van LLM's onderwerpen en modelfamilies doordringt, en niet verbetert met schaal. Door aandachtsscores van aandachtskoppen te onderzoeken, vinden we dat goed presterende scheidingstekens de aandacht sturen naar sleuteltokens in de invoer. Ten slotte verkennen we methoden om de robuustheid van LLM's tegenover de keuze van scheidingstekens te verbeteren. We ontdekken dat het specificeren van het geselecteerde scheidingsteken in de prompt de robuustheid verhoogt en bieden praktische aanbevelingen voor de best presterende scheidingstekens om te selecteren.
English
Common Large Language model (LLM) evaluations rely on demonstration examples to steer models' responses to the desired style. While the number of examples used has been studied and standardized, the choice of how to format examples is less investigated. In evaluation protocols and real world usage, users face the choice how to separate in-context examples: use a comma? new line? semi-colon? hashtag? etc.? Surprisingly, we find this seemingly minor choice can dramatically alter model response quality. Across leading model families (Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23% depending on the choice of delimiter. In fact, one can manipulate model rankings to put any model in the lead by only modifying the single character separating examples. We find LLMs' brittleness pervades topics, model families, and doesn't improve with scale. By probing attention head scores, we find that good-performing delimiters steer attention towards key tokens in the input. Finally, we explore methods to improve LLMs' robustness to the choice of delimiter. We find specifying the selected delimiter in the prompt boosts robustness and offer practical recommendations for the best-performing delimiters to select.
PDF42October 9, 2025