表面を超えて:LLM判断における自己選好性の測定
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
著者: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
要旨
最近の研究によると、大規模言語モデル(LLM)は審判役として機能する際に自己選好バイアスを示すことが明らかになっています。これは、他のモデルが生成した応答よりも、自分自身が生成した応答を好む傾向があることを意味します。既存の手法では、通常、審判モデルが自身の応答に与えるスコアと他のモデルの応答に与えるスコアの差を計算することで、このバイアスを測定します。しかし、このアプローチでは、自己選好バイアスと応答の質が混同されてしまいます。なぜなら、審判モデルが生成した高品質な応答も、バイアスがなくても正のスコア差を生む可能性があるからです。この問題を解決するため、我々は応答の実際の質を代理するものとしてゴールドジャッジメントを導入し、審判モデルが自身の応答に与えるスコアと対応するゴールドジャッジメントの差を測定するDBGスコアを提案します。ゴールドジャッジメントは真の応答の質を反映するため、DBGスコアはバイアス測定における応答の質の交絡効果を軽減します。DBGスコアを用いて、我々はバージョン、サイズ、推論能力が異なるLLMにわたる自己選好バイアスを評価する包括的な実験を実施しました。さらに、自己選好バイアスに影響を与え、それを軽減する2つの要因、すなわち応答テキストのスタイルと審判モデルのポストトレーニングデータについて調査しました。最後に、アテンションベースの視点から自己選好バイアスの潜在的なメカニズムを探ります。我々のコードとデータはhttps://github.com/zhiyuanc2001/self-preferenceで公開されています。
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.