Jenseits der Oberfläche: Messung von Selbstpräferenz in Urteilen von LLMs
Beyond the Surface: Measuring Self-Preference in LLM Judgments
June 3, 2025
Autoren: Zhi-Yuan Chen, Hao Wang, Xinyu Zhang, Enrui Hu, Yankai Lin
cs.AI
Zusammenfassung
Aktuelle Studien zeigen, dass große Sprachmodelle (LLMs) eine Selbstpräferenzverzerrung aufweisen, wenn sie als Bewerter fungieren, was bedeutet, dass sie tendenziell ihre eigenen Antworten gegenüber denen anderer Modelle bevorzugen. Bestehende Methoden messen diese Verzerrung typischerweise, indem sie die Differenz zwischen den Bewertungen berechnen, die ein Bewertermodell seinen eigenen Antworten zuweist, und denen, die es den Antworten anderer Modelle zuweist. Dieser Ansatz vermischt jedoch die Selbstpräferenzverzerrung mit der Antwortqualität, da höherwertige Antworten des Bewertermodells ebenfalls zu positiven Bewertungsdifferenzen führen können, selbst in Abwesenheit einer Verzerrung. Um dieses Problem zu adressieren, führen wir Goldbewertungen als Stellvertreter für die tatsächliche Qualität der Antworten ein und schlagen den DBG-Score vor, der die Selbstpräferenzverzerrung als Differenz zwischen den Bewertungen misst, die das Bewertermodell seinen eigenen Antworten zuweist, und den entsprechenden Goldbewertungen. Da Goldbewertungen die wahre Antwortqualität widerspiegeln, mildert der DBG-Score den störenden Effekt der Antwortqualität auf die Verzerrungsmessung. Mit dem DBG-Score führen wir umfassende Experimente durch, um die Selbstpräferenzverzerrung bei LLMs verschiedener Versionen, Größen und Fähigkeiten zur logischen Schlussfolgerung zu bewerten. Zusätzlich untersuchen wir zwei Faktoren, die die Selbstpräferenzverzerrung beeinflussen und helfen, sie zu verringern: den Textstil der Antworten und die Post-Trainingsdaten der Bewertermodelle. Schließlich erkunden wir potenzielle zugrunde liegende Mechanismen der Selbstpräferenzverzerrung aus einer auf Aufmerksamkeit basierenden Perspektive. Unser Code und unsere Daten sind verfügbar unter https://github.com/zhiyuanc2001/self-preference.
English
Recent studies show that large language models (LLMs) exhibit self-preference
bias when serving as judges, meaning they tend to favor their own responses
over those generated by other models. Existing methods typically measure this
bias by calculating the difference between the scores a judge model assigns to
its own responses and those it assigns to responses from other models. However,
this approach conflates self-preference bias with response quality, as
higher-quality responses from the judge model may also lead to positive score
differences, even in the absence of bias. To address this issue, we introduce
gold judgments as proxies for the actual quality of responses and propose the
DBG score, which measures self-preference bias as the difference between the
scores assigned by the judge model to its own responses and the corresponding
gold judgments. Since gold judgments reflect true response quality, the DBG
score mitigates the confounding effect of response quality on bias measurement.
Using the DBG score, we conduct comprehensive experiments to assess
self-preference bias across LLMs of varying versions, sizes, and reasoning
abilities. Additionally, we investigate two factors that influence and help
alleviate self-preference bias: response text style and the post-training data
of judge models. Finally, we explore potential underlying mechanisms of
self-preference bias from an attention-based perspective. Our code and data are
available at https://github.com/zhiyuanc2001/self-preference.