ChatPaper.aiChatPaper

表面を超えて:LLM判断における自己選好性の測定

Beyond the Surface: Measuring Self-Preference in LLM Judgments

June 3, 2025
著者: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI

要旨

最近の研究によると、大規模言語モデル(LLM)は審判役として機能する際に自己選好バイアスを示すことが明らかになっています。これは、他のモデルが生成した応答よりも、自分自身が生成した応答を好む傾向があることを意味します。既存の手法では、通常、審判モデルが自身の応答に与えるスコアと他のモデルの応答に与えるスコアの差を計算することで、このバイアスを測定します。しかし、このアプローチでは、自己選好バイアスと応答の質が混同されてしまいます。なぜなら、審判モデルが生成した高品質な応答も、バイアスがなくても正のスコア差を生む可能性があるからです。この問題を解決するため、我々は応答の実際の質を代理するものとしてゴールドジャッジメントを導入し、審判モデルが自身の応答に与えるスコアと対応するゴールドジャッジメントの差を測定するDBGスコアを提案します。ゴールドジャッジメントは真の応答の質を反映するため、DBGスコアはバイアス測定における応答の質の交絡効果を軽減します。DBGスコアを用いて、我々はバージョン、サイズ、推論能力が異なるLLMにわたる自己選好バイアスを評価する包括的な実験を実施しました。さらに、自己選好バイアスに影響を与え、それを軽減する2つの要因、すなわち応答テキストのスタイルと審判モデルのポストトレーニングデータについて調査しました。最後に、アテンションベースの視点から自己選好バイアスの潜在的なメカニズムを探ります。我々のコードとデータはhttps://github.com/zhiyuanc2001/self-preferenceで公開されています。
English
Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
PDF82June 5, 2025