Más allá de la superficie: Medición de la autopreferencia en los juicios de los LLM
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Autores: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Resumen
Estudios recientes muestran que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben un sesgo de autopreferencia cuando actúan como jueces, lo que significa que tienden a favorecer sus propias respuestas sobre las generadas por otros modelos. Los métodos existentes suelen medir este sesgo calculando la diferencia entre las puntuaciones que un modelo juez asigna a sus propias respuestas y las que asigna a las respuestas de otros modelos. Sin embargo, este enfoque confunde el sesgo de autopreferencia con la calidad de las respuestas, ya que respuestas de mayor calidad del modelo juez también pueden llevar a diferencias positivas en las puntuaciones, incluso en ausencia de sesgo. Para abordar este problema, introducimos juicios de referencia (gold judgments) como sustitutos de la calidad real de las respuestas y proponemos la puntuación DBG, que mide el sesgo de autopreferencia como la diferencia entre las puntuaciones asignadas por el modelo juez a sus propias respuestas y los juicios de referencia correspondientes. Dado que los juicios de referencia reflejan la calidad verdadera de las respuestas, la puntuación DBG mitiga el efecto confuso de la calidad de las respuestas en la medición del sesgo. Utilizando la puntuación DBG, realizamos experimentos exhaustivos para evaluar el sesgo de autopreferencia en LLMs de diferentes versiones, tamaños y capacidades de razonamiento. Además, investigamos dos factores que influyen y ayudan a reducir el sesgo de autopreferencia: el estilo del texto de las respuestas y los datos de posentrenamiento de los modelos jueces. Finalmente, exploramos los posibles mecanismos subyacentes del sesgo de autopreferencia desde una perspectiva basada en la atención. Nuestro código y datos están disponibles en https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.