Sicheres Beurteilen: Kalibrierung von Autoratern auf Präferenzverteilungen

papers.abstract

Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Werten beruht zunehmend auf der Verwendung anderer LLMs als automatisierte Bewerter oder „Autorater“. Ihre Zuverlässigkeit wird jedoch durch ein grundlegendes Problem eingeschränkt: Sie werden auf diskreten Präferenzlabels trainiert, wodurch eine einzige „Ground Truth“ für Aufgaben erzwungen wird, die oft subjektiv, mehrdeutig oder nuancenreich sind. Wir argumentieren, dass ein zuverlässiger Autorater die gesamte Verteilung der Präferenzen, die durch eine Zielpopulation definiert wird, modellieren muss. In diesem Artikel schlagen wir einen allgemeinen Rahmen zur Kalibrierung probabilistischer Autorater an eine gegebene Präferenzverteilung vor. Wir formalisieren das Problem und präsentieren zwei Lernmethoden, die auf unterschiedliche Datenbedingungen zugeschnitten sind: 1) ein direktes supervidiertes Fine-Tuning für dichte, probabilistische Labels und 2) einen Reinforcement-Learning-Ansatz für spärliche, binäre Labels. Unsere empirischen Ergebnisse zeigen, dass das Fine-Tuning von Autoratern mit einem Verteilungsanpassungsziel zu verbalisierten Wahrscheinlichkeitsvorhersagen führt, die besser mit der Zielpräferenzverteilung übereinstimmen, eine verbesserte Kalibrierung und deutlich geringere Positionsverzerrungen aufweisen, während gleichzeitig die Leistung bei objektiven Aufgaben erhalten bleibt.

English

The alignment of large language models (LLMs) with human values increasingly relies on using other LLMs as automated judges, or ``autoraters''. However, their reliability is limited by a foundational issue: they are trained on discrete preference labels, forcing a single ground truth onto tasks that are often subjective, ambiguous, or nuanced. We argue that a reliable autorater must learn to model the full distribution of preferences defined by a target population. In this paper, we propose a general framework for calibrating probabilistic autoraters to any given preference distribution. We formalize the problem and present two learning methods tailored to different data conditions: 1) a direct supervised fine-tuning for dense, probabilistic labels, and 2) a reinforcement learning approach for sparse, binary labels. Our empirical results show that finetuning autoraters with a distribution-matching objective leads to verbalized probability predictions that are better aligned with the target preference distribution, with improved calibration and significantly lower positional bias, all while preserving performance on objective tasks.

Sicheres Beurteilen: Kalibrierung von Autoratern auf Präferenzverteilungen

Judging with Confidence: Calibrating Autoraters to Preference Distributions

papers.abstract

Support