Oltre la superficie: Misurare l'autopreferenza nei giudizi degli LLM
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Autori: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Abstract
Studi recenti dimostrano che i grandi modelli linguistici (LLM) manifestano un bias di auto-preferenza quando agiscono come giudici, tendendo cioè a favorire le proprie risposte rispetto a quelle generate da altri modelli. I metodi esistenti misurano tipicamente questo bias calcolando la differenza tra i punteggi che un modello giudice assegna alle proprie risposte e quelli che assegna alle risposte di altri modelli. Tuttavia, questo approccio confonde il bias di auto-preferenza con la qualità delle risposte, poiché risposte di qualità superiore provenienti dal modello giudice potrebbero comunque portare a differenze positive nei punteggi, anche in assenza di bias. Per affrontare questo problema, introduciamo giudizi di riferimento (gold judgments) come proxy della qualità effettiva delle risposte e proponiamo il punteggio DBG, che misura il bias di auto-preferenza come la differenza tra i punteggi assegnati dal modello giudice alle proprie risposte e i corrispondenti giudizi di riferimento. Poiché i giudizi di riferimento riflettono la vera qualità delle risposte, il punteggio DBG mitiga l'effetto confondente della qualità delle risposte sulla misurazione del bias. Utilizzando il punteggio DBG, conduciamo esperimenti completi per valutare il bias di auto-preferenza in LLM di diverse versioni, dimensioni e capacità di ragionamento. Inoltre, indaghiamo due fattori che influenzano e aiutano a ridurre il bias di auto-preferenza: lo stile del testo delle risposte e i dati di post-addestramento dei modelli giudice. Infine, esploriamo i potenziali meccanismi sottostanti al bias di auto-preferenza da una prospettiva basata sull'attenzione. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.