За пределами поверхности: измерение самопредпочтения в суждениях языковых моделей

Аннотация

Недавние исследования показывают, что крупные языковые модели (LLM) демонстрируют предвзятость в пользу собственных ответов, когда выступают в роли судей, то есть они склонны отдавать предпочтение своим ответам перед ответами, сгенерированными другими моделями. Существующие методы обычно измеряют эту предвзятость, вычисляя разницу между оценками, которые модель-судья присваивает своим собственным ответам, и теми, которые она присваивает ответам других моделей. Однако такой подход смешивает предвзятость в пользу собственных ответов с качеством ответов, поскольку более качественные ответы модели-судьи также могут приводить к положительным различиям в оценках, даже при отсутствии предвзятости. Чтобы решить эту проблему, мы вводим эталонные оценки (gold judgments) в качестве прокси для фактического качества ответов и предлагаем показатель DBG, который измеряет предвзятость в пользу собственных ответов как разницу между оценками, присвоенными моделью-судьей своим ответам, и соответствующими эталонными оценками. Поскольку эталонные оценки отражают истинное качество ответов, показатель DBG снижает влияние качества ответов на измерение предвзятости. Используя показатель DBG, мы проводим всесторонние эксперименты для оценки предвзятости в пользу собственных ответов у LLM различных версий, размеров и способностей к рассуждению. Кроме того, мы исследуем два фактора, которые влияют на эту предвзятость и помогают её смягчить: стиль текста ответов и данные пост-обучения моделей-судей. Наконец, мы исследуем потенциальные механизмы, лежащие в основе предвзятости в пользу собственных ответов, с точки зрения внимания. Наш код и данные доступны по адресу https://github.com/zhiyuanc2001/self-preference.

English

Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.

За пределами поверхности: измерение самопредпочтения в суждениях языковых моделей

Beyond the Surface: Measuring Self-Preference in LLM Judgments

Аннотация

Support