Au-delà de la surface : Mesurer l'auto-préférence dans les jugements des LLM
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Auteurs: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Résumé
Les études récentes montrent que les grands modèles de langage (LLMs) présentent un biais d'auto-préférence lorsqu'ils servent de juges, c'est-à-dire qu'ils ont tendance à favoriser leurs propres réponses par rapport à celles générées par d'autres modèles. Les méthodes existantes mesurent généralement ce biais en calculant la différence entre les scores qu'un modèle juge attribue à ses propres réponses et ceux qu'il attribue aux réponses d'autres modèles. Cependant, cette approche confond le biais d'auto-préférence avec la qualité des réponses, car des réponses de meilleure qualité du modèle juge peuvent également entraîner des différences de scores positives, même en l'absence de biais. Pour résoudre ce problème, nous introduisons des jugements de référence (gold judgments) comme proxies de la qualité réelle des réponses et proposons le score DBG, qui mesure le biais d'auto-préférence comme la différence entre les scores attribués par le modèle juge à ses propres réponses et les jugements de référence correspondants. Étant donné que les jugements de référence reflètent la véritable qualité des réponses, le score DBG atténue l'effet de confusion de la qualité des réponses sur la mesure du biais. En utilisant le score DBG, nous menons des expériences approfondies pour évaluer le biais d'auto-préférence parmi les LLMs de différentes versions, tailles et capacités de raisonnement. De plus, nous étudions deux facteurs qui influencent et aident à atténuer le biais d'auto-préférence : le style textuel des réponses et les données de post-formation des modèles juges. Enfin, nous explorons les mécanismes sous-jacents potentiels du biais d'auto-préférence d'un point de vue basé sur l'attention. Notre code et nos données sont disponibles à l'adresse https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.