Sicheres Beurteilen: Kalibrierung von Autoratern auf Präferenzverteilungen
Judging with Confidence: Calibrating Autoraters to Preference Distributions
September 30, 2025
papers.authors: Zhuohang Li, Xiaowei Li, Chengyu Huang, Guowang Li, Katayoon Goshvadi, Bo Dai, Dale Schuurmans, Paul Zhou, Hamid Palangi, Yiwen Song, Palash Goyal, Murat Kantarcioglu, Bradley A. Malin, Yuan Xue
cs.AI
papers.abstract
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten beruht zunehmend auf der Verwendung anderer LLMs als automatisierte Bewerter oder „Autorater“. Ihre Zuverlässigkeit wird jedoch durch ein grundlegendes Problem eingeschränkt: Sie werden auf diskreten Präferenzlabels trainiert, wodurch eine einzige „Ground Truth“ für Aufgaben erzwungen wird, die oft subjektiv, mehrdeutig oder nuancenreich sind. Wir argumentieren, dass ein zuverlässiger Autorater die gesamte Verteilung der Präferenzen, die durch eine Zielpopulation definiert wird, modellieren muss. In diesem Artikel schlagen wir einen allgemeinen Rahmen zur Kalibrierung probabilistischer Autorater an eine gegebene Präferenzverteilung vor. Wir formalisieren das Problem und präsentieren zwei Lernmethoden, die auf unterschiedliche Datenbedingungen zugeschnitten sind: 1) ein direktes supervidiertes Fine-Tuning für dichte, probabilistische Labels und 2) einen Reinforcement-Learning-Ansatz für spärliche, binäre Labels. Unsere empirischen Ergebnisse zeigen, dass das Fine-Tuning von Autoratern mit einem Verteilungsanpassungsziel zu verbalisierten Wahrscheinlichkeitsvorhersagen führt, die besser mit der Zielpräferenzverteilung übereinstimmen, eine verbesserte Kalibrierung und deutlich geringere Positionsverzerrungen aufweisen, während gleichzeitig die Leistung bei objektiven Aufgaben erhalten bleibt.
English
The alignment of large language models (LLMs) with human values increasingly
relies on using other LLMs as automated judges, or ``autoraters''. However,
their reliability is limited by a foundational issue: they are trained on
discrete preference labels, forcing a single ground truth onto tasks that are
often subjective, ambiguous, or nuanced. We argue that a reliable autorater
must learn to model the full distribution of preferences defined by a target
population. In this paper, we propose a general framework for calibrating
probabilistic autoraters to any given preference distribution. We formalize the
problem and present two learning methods tailored to different data conditions:
1) a direct supervised fine-tuning for dense, probabilistic labels, and 2) a
reinforcement learning approach for sparse, binary labels. Our empirical
results show that finetuning autoraters with a distribution-matching objective
leads to verbalized probability predictions that are better aligned with the
target preference distribution, with improved calibration and significantly
lower positional bias, all while preserving performance on objective tasks.