ChatPaper.aiChatPaper

Voorbij het Oppervlak: Het Meten van Zelfvoorkeur in LLM-Beoordelingen

Beyond the Surface: Measuring Self-Preference in LLM Judgments

June 3, 2025
Auteurs: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI

Samenvatting

Recente studies tonen aan dat grote taalmodellen (LLMs) zelfvoorkeursbias vertonen wanneer ze als beoordelaars fungeren, wat betekent dat ze de neiging hebben om hun eigen reacties te verkiezen boven die gegenereerd door andere modellen. Bestaande methoden meten deze bias doorgaans door het verschil te berekenen tussen de scores die een beoordelaarsmodel toekent aan zijn eigen reacties en die het toekent aan reacties van andere modellen. Deze benadering verwart echter zelfvoorkeursbias met reactiekwaliteit, aangezien hogere kwaliteit van reacties van het beoordelaarsmodel ook kan leiden tot positieve scoreverschillen, zelfs bij afwezigheid van bias. Om dit probleem aan te pakken, introduceren we gouden beoordelingen als proxies voor de werkelijke kwaliteit van reacties en stellen we de DBG-score voor, die zelfvoorkeursbias meet als het verschil tussen de scores die het beoordelaarsmodel toekent aan zijn eigen reacties en de corresponderende gouden beoordelingen. Aangezien gouden beoordelingen de werkelijke reactiekwaliteit weerspiegelen, vermindert de DBG-score het verstorende effect van reactiekwaliteit op biasmeting. Met behulp van de DBG-score voeren we uitgebreide experimenten uit om zelfvoorkeursbias te beoordelen bij LLMs van verschillende versies, groottes en redeneervaardigheden. Daarnaast onderzoeken we twee factoren die zelfvoorkeursbias beïnvloeden en helpen verminderen: de tekststijl van reacties en de post-trainingsgegevens van beoordelaarsmodellen. Tot slot verkennen we mogelijke onderliggende mechanismen van zelfvoorkeursbias vanuit een aandachtsperspectief. Onze code en gegevens zijn beschikbaar op https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
PDF82June 5, 2025