Un singolo carattere può fare o distruggere le tue valutazioni di LLM.
A Single Character can Make or Break Your LLM Evals
October 2, 2025
Autori: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI
Abstract
Le valutazioni comuni dei Large Language Model (LLM) si basano su esempi dimostrativi per indirizzare le risposte dei modelli verso lo stile desiderato. Sebbene il numero di esempi utilizzati sia stato studiato e standardizzato, la scelta di come formattare gli esempi è meno esplorata. Nei protocolli di valutazione e nell'uso reale, gli utenti si trovano a dover scegliere come separare gli esempi in contesto: usare una virgola? Un'a capo? Un punto e virgola? Un hashtag? Ecc.? Sorprendentemente, scopriamo che questa scelta apparentemente banale può alterare drasticamente la qualità delle risposte del modello. Tra le principali famiglie di modelli (Llama, Qwen, Gemma), le prestazioni su MMLU, ad esempio, possono variare di ±23% a seconda della scelta del delimitatore. In effetti, è possibile manipolare le classifiche dei modelli per far emergere qualsiasi modello in testa modificando solo il singolo carattere che separa gli esempi. Troviamo che la fragilità dei LLM si estende a vari argomenti e famiglie di modelli, e non migliora con la scala. Analizzando i punteggi delle teste di attenzione, scopriamo che i delimitatori che performano bene dirigono l'attenzione verso i token chiave nell'input. Infine, esploriamo metodi per migliorare la robustezza dei LLM rispetto alla scelta del delimitatore. Troviamo che specificare il delimitatore selezionato nel prompt aumenta la robustezza e offriamo raccomandazioni pratiche per selezionare i delimitatori che performano meglio.
English
Common Large Language model (LLM) evaluations rely on demonstration examples
to steer models' responses to the desired style. While the number of examples
used has been studied and standardized, the choice of how to format examples is
less investigated. In evaluation protocols and real world usage, users face the
choice how to separate in-context examples: use a comma? new line? semi-colon?
hashtag? etc.? Surprisingly, we find this seemingly minor choice can
dramatically alter model response quality. Across leading model families
(Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23%
depending on the choice of delimiter. In fact, one can manipulate model
rankings to put any model in the lead by only modifying the single character
separating examples. We find LLMs' brittleness pervades topics, model families,
and doesn't improve with scale. By probing attention head scores, we find that
good-performing delimiters steer attention towards key tokens in the input.
Finally, we explore methods to improve LLMs' robustness to the choice of
delimiter. We find specifying the selected delimiter in the prompt boosts
robustness and offer practical recommendations for the best-performing
delimiters to select.