ChatPaper.aiChatPaper

Oltre la superficie: Misurare l'autopreferenza nei giudizi degli LLM

Beyond the Surface: Measuring Self-Preference in LLM Judgments

June 3, 2025
Autori: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI

Abstract

Studi recenti dimostrano che i grandi modelli linguistici (LLM) manifestano un bias di auto-preferenza quando agiscono come giudici, tendendo cioè a favorire le proprie risposte rispetto a quelle generate da altri modelli. I metodi esistenti misurano tipicamente questo bias calcolando la differenza tra i punteggi che un modello giudice assegna alle proprie risposte e quelli che assegna alle risposte di altri modelli. Tuttavia, questo approccio confonde il bias di auto-preferenza con la qualità delle risposte, poiché risposte di qualità superiore provenienti dal modello giudice potrebbero comunque portare a differenze positive nei punteggi, anche in assenza di bias. Per affrontare questo problema, introduciamo giudizi di riferimento (gold judgments) come proxy della qualità effettiva delle risposte e proponiamo il punteggio DBG, che misura il bias di auto-preferenza come la differenza tra i punteggi assegnati dal modello giudice alle proprie risposte e i corrispondenti giudizi di riferimento. Poiché i giudizi di riferimento riflettono la vera qualità delle risposte, il punteggio DBG mitiga l'effetto confondente della qualità delle risposte sulla misurazione del bias. Utilizzando il punteggio DBG, conduciamo esperimenti completi per valutare il bias di auto-preferenza in LLM di diverse versioni, dimensioni e capacità di ragionamento. Inoltre, indaghiamo due fattori che influenzano e aiutano a ridurre il bias di auto-preferenza: lo stile del testo delle risposte e i dati di post-addestramento dei modelli giudice. Infine, esploriamo i potenziali meccanismi sottostanti al bias di auto-preferenza da una prospettiva basata sull'attenzione. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference bias when serving as judges, meaning they tend to favor their own responses over those generated by other models. Existing methods typically measure this bias by calculating the difference between the scores a judge model assigns to its own responses and those it assigns to responses from other models. However, this approach conflates self-preference bias with response quality, as higher-quality responses from the judge model may also lead to positive score differences, even in the absence of bias. To address this issue, we introduce gold judgments as proxies for the actual quality of responses and propose the DBG score, which measures self-preference bias as the difference between the scores assigned by the judge model to its own responses and the corresponding gold judgments. Since gold judgments reflect true response quality, the DBG score mitigates the confounding effect of response quality on bias measurement. Using the DBG score, we conduct comprehensive experiments to assess self-preference bias across LLMs of varying versions, sizes, and reasoning abilities. Additionally, we investigate two factors that influence and help alleviate self-preference bias: response text style and the post-training data of judge models. Finally, we explore potential underlying mechanisms of self-preference bias from an attention-based perspective. Our code and data are available at https://github.com/zhiyuanc2001/self-preference.
PDF82June 5, 2025