Além da Superfície: Medindo a Autopreferência nos Julgamentos de LLMs
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Autores: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Resumo
Estudos recentes mostram que modelos de linguagem de grande escala (LLMs) exibem viés de autopreferência ao atuarem como juízes, o que significa que tendem a favorecer suas próprias respostas em relação às geradas por outros modelos. Os métodos existentes geralmente medem esse viés calculando a diferença entre as pontuações que um modelo juiz atribui às suas próprias respostas e aquelas que atribui às respostas de outros modelos. No entanto, essa abordagem confunde o viés de autopreferência com a qualidade das respostas, já que respostas de maior qualidade do modelo juiz também podem levar a diferenças positivas nas pontuações, mesmo na ausência de viés. Para resolver esse problema, introduzimos julgamentos de ouro como proxies para a qualidade real das respostas e propomos a pontuação DBG, que mede o viés de autopreferência como a diferença entre as pontuações atribuídas pelo modelo juiz às suas próprias respostas e os julgamentos de ouro correspondentes. Como os julgamentos de ouro refletem a verdadeira qualidade das respostas, a pontuação DBG mitiga o efeito de confusão da qualidade das respostas na medição do viés. Utilizando a pontuação DBG, realizamos experimentos abrangentes para avaliar o viés de autopreferência em LLMs de diferentes versões, tamanhos e habilidades de raciocínio. Além disso, investigamos dois fatores que influenciam e ajudam a aliviar o viés de autopreferência: o estilo do texto das respostas e os dados de pós-treinamento dos modelos juízes. Por fim, exploramos possíveis mecanismos subjacentes ao viés de autopreferência a partir de uma perspectiva baseada em atenção. Nosso código e dados estão disponíveis em https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.