ChatPaper.aiChatPaper

Un seul caractère peut faire ou défaire vos évaluations de LLM.

A Single Character can Make or Break Your LLM Evals

October 2, 2025
papers.authors: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI

papers.abstract

Les évaluations courantes des grands modèles de langage (LLM) reposent sur des exemples de démonstration pour orienter les réponses des modèles vers le style souhaité. Bien que le nombre d'exemples utilisés ait été étudié et standardisé, le choix de la manière de formater ces exemples est moins exploré. Dans les protocoles d'évaluation et les usages réels, les utilisateurs sont confrontés au choix de la manière de séparer les exemples en contexte : utiliser une virgule ? un saut de ligne ? un point-virgule ? un hashtag ? etc. ? Étonnamment, nous constatons que ce choix apparemment mineur peut considérablement altérer la qualité des réponses du modèle. Parmi les principales familles de modèles (Llama, Qwen, Gemma), les performances sur MMLU, par exemple, peuvent varier de ±23 % selon le choix du délimiteur. En fait, il est possible de manipuler les classements des modèles pour placer n'importe quel modèle en tête en modifiant uniquement le caractère séparant les exemples. Nous observons que la fragilité des LLM persiste à travers les sujets, les familles de modèles, et ne s'améliore pas avec l'échelle. En examinant les scores des têtes d'attention, nous constatons que les délimiteurs performants orientent l'attention vers les tokens clés de l'entrée. Enfin, nous explorons des méthodes pour améliorer la robustesse des LLM face au choix du délimiteur. Nous constatons que spécifier le délimiteur sélectionné dans l'invite renforce la robustesse et proposons des recommandations pratiques pour choisir les délimiteurs les plus performants.
English
Common Large Language model (LLM) evaluations rely on demonstration examples to steer models' responses to the desired style. While the number of examples used has been studied and standardized, the choice of how to format examples is less investigated. In evaluation protocols and real world usage, users face the choice how to separate in-context examples: use a comma? new line? semi-colon? hashtag? etc.? Surprisingly, we find this seemingly minor choice can dramatically alter model response quality. Across leading model families (Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23% depending on the choice of delimiter. In fact, one can manipulate model rankings to put any model in the lead by only modifying the single character separating examples. We find LLMs' brittleness pervades topics, model families, and doesn't improve with scale. By probing attention head scores, we find that good-performing delimiters steer attention towards key tokens in the input. Finally, we explore methods to improve LLMs' robustness to the choice of delimiter. We find specifying the selected delimiter in the prompt boosts robustness and offer practical recommendations for the best-performing delimiters to select.
PDF32October 9, 2025