ChatPaper.aiChatPaper

Um único caractere pode fazer ou quebrar suas avaliações de LLM

A Single Character can Make or Break Your LLM Evals

October 2, 2025
Autores: Jingtong Su, Jianyu Zhang, Karen Ullrich, Léon Bottou, Mark Ibrahim
cs.AI

Resumo

Avaliações comuns de modelos de linguagem de grande escala (LLMs) dependem de exemplos de demonstração para direcionar as respostas dos modelos ao estilo desejado. Embora o número de exemplos utilizados tenha sido estudado e padronizado, a escolha de como formatar os exemplos é menos investigada. Em protocolos de avaliação e no uso real, os usuários enfrentam a decisão de como separar os exemplos no contexto: usar uma vírgula? Nova linha? Ponto e vírgula? Hashtag? etc.? Surpreendentemente, descobrimos que essa escolha aparentemente trivial pode alterar drasticamente a qualidade da resposta do modelo. Em famílias de modelos líderes (Llama, Qwen, Gemma), o desempenho no MMLU, por exemplo, pode variar em ±23% dependendo da escolha do delimitador. Na verdade, é possível manipular as classificações dos modelos para colocar qualquer modelo na liderança apenas modificando o único caractere que separa os exemplos. Descobrimos que a fragilidade dos LLMs permeia tópicos, famílias de modelos e não melhora com a escala. Ao investigar as pontuações das cabeças de atenção, descobrimos que delimitadores de bom desempenho direcionam a atenção para tokens-chave na entrada. Por fim, exploramos métodos para melhorar a robustez dos LLMs em relação à escolha do delimitador. Descobrimos que especificar o delimitador selecionado no prompt aumenta a robustez e oferecemos recomendações práticas para a seleção dos delimitadores de melhor desempenho.
English
Common Large Language model (LLM) evaluations rely on demonstration examples to steer models' responses to the desired style. While the number of examples used has been studied and standardized, the choice of how to format examples is less investigated. In evaluation protocols and real world usage, users face the choice how to separate in-context examples: use a comma? new line? semi-colon? hashtag? etc.? Surprisingly, we find this seemingly minor choice can dramatically alter model response quality. Across leading model families (Llama, Qwen, Gemma), performance on MMLU for example can vary by pm 23% depending on the choice of delimiter. In fact, one can manipulate model rankings to put any model in the lead by only modifying the single character separating examples. We find LLMs' brittleness pervades topics, model families, and doesn't improve with scale. By probing attention head scores, we find that good-performing delimiters steer attention towards key tokens in the input. Finally, we explore methods to improve LLMs' robustness to the choice of delimiter. We find specifying the selected delimiter in the prompt boosts robustness and offer practical recommendations for the best-performing delimiters to select.
PDF42October 9, 2025