Más allá de la superficie: Medición de la autopreferencia en los juicios de los LLM

Resumen

Estudios recientes muestran que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben un sesgo de autopreferencia cuando actúan como jueces, lo que significa que tienden a favorecer sus propias respuestas sobre las generadas por otros modelos. Los métodos existentes suelen medir este sesgo calculando la diferencia entre las puntuaciones que un modelo juez asigna a sus propias respuestas y las que asigna a las respuestas de otros modelos. Sin embargo, este enfoque confunde el sesgo de autopreferencia con la calidad de las respuestas, ya que respuestas de mayor calidad del modelo juez también pueden llevar a diferencias positivas en las puntuaciones, incluso en ausencia de sesgo. Para abordar este problema, introducimos juicios de referencia (gold judgments) como sustitutos de la calidad real de las respuestas y proponemos la puntuación DBG, que mide el sesgo de autopreferencia como la diferencia entre las puntuaciones asignadas por el modelo juez a sus propias respuestas y los juicios de referencia correspondientes. Dado que los juicios de referencia reflejan la calidad verdadera de las respuestas, la puntuación DBG mitiga el efecto confuso de la calidad de las respuestas en la medición del sesgo. Utilizando la puntuación DBG, realizamos experimentos exhaustivos para evaluar el sesgo de autopreferencia en LLMs de diferentes versiones, tamaños y capacidades de razonamiento. Además, investigamos dos factores que influyen y ayudan a reducir el sesgo de autopreferencia: el estilo del texto de las respuestas y los datos de posentrenamiento de los modelos jueces. Finalmente, exploramos los posibles mecanismos subyacentes del sesgo de autopreferencia desde una perspectiva basada en la atención. Nuestro código y datos están disponibles en https://github.com/zhiyuanc2001/self-preference.

English

Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.

Más allá de la superficie: Medición de la autopreferencia en los juicios de los LLM

Beyond the Surface: Measuring Self-Preference in LLM Judgments

Resumen

Support