За пределами поверхности: измерение самопредпочтения в суждениях языковых моделей
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Авторы: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Аннотация
Недавние исследования показывают, что крупные языковые модели (LLM) демонстрируют предвзятость в пользу собственных ответов, когда выступают в роли судей, то есть они склонны отдавать предпочтение своим ответам перед ответами, сгенерированными другими моделями. Существующие методы обычно измеряют эту предвзятость, вычисляя разницу между оценками, которые модель-судья присваивает своим собственным ответам, и теми, которые она присваивает ответам других моделей. Однако такой подход смешивает предвзятость в пользу собственных ответов с качеством ответов, поскольку более качественные ответы модели-судьи также могут приводить к положительным различиям в оценках, даже при отсутствии предвзятости. Чтобы решить эту проблему, мы вводим эталонные оценки (gold judgments) в качестве прокси для фактического качества ответов и предлагаем показатель DBG, который измеряет предвзятость в пользу собственных ответов как разницу между оценками, присвоенными моделью-судьей своим ответам, и соответствующими эталонными оценками. Поскольку эталонные оценки отражают истинное качество ответов, показатель DBG снижает влияние качества ответов на измерение предвзятости. Используя показатель DBG, мы проводим всесторонние эксперименты для оценки предвзятости в пользу собственных ответов у LLM различных версий, размеров и способностей к рассуждению. Кроме того, мы исследуем два фактора, которые влияют на эту предвзятость и помогают её смягчить: стиль текста ответов и данные пост-обучения моделей-судей. Наконец, мы исследуем потенциальные механизмы, лежащие в основе предвзятости в пользу собственных ответов, с точки зрения внимания. Наш код и данные доступны по адресу https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.