Selbstevaluation ist bereits vorhanden: Hervorrufen latenter Richterkalibrierung in Basis-LLMs mit minimalen Daten

Zusammenfassung

Große Sprachmodelle werden zunehmend von anderen Modellen bewertet, was die naheliegende Frage aufwirft: Kann ein Modell vorhersagen, wie ein Bewerter seine eigene Ausgabe bewerten wird? Wir stellen fest, dass diese Fähigkeit bereits weitgehend vorhanden ist, bevor ein gezieltes Training erfolgt: Mittels Few-Shot-Prompts sagt ein Basismodell die Qualitätsbewertungen für mehrere Attribute eines externen Bewerters bei offenen Antworten bereits deutlich über dem Zufallsniveau voraus – und das über drei Vergleichsmaßstäbe hinweg. Wir führen die Selbstevaluations-Hervorlockung (Self-Evaluation Elicitation, SEE) ein, eine Methode, die diese latente Fähigkeit durch einen kurzen Zyklus freilegt: eine an die Kalibrierung gekoppelte Verstärkungslernphase, die die Antwort verbessert und den Bewerter vorhersagt, gefolgt von einer maskierten Destillationsphase, die die Vorhersage schärft, während die Antwort unberührt bleibt. Ausgehend von 160 einzigartigen Beispielen, etwa 31-mal weniger als bei einem Verstärkungslern-Baseline, verbessert SEE die Kalibrierung auf zurückgehaltenen Daten über drei Vergleichsmaßstäbe hinweg, während die Antwortqualität erhalten bleibt. Die hervorgelockte Selbstevaluation ist scharf innerhalb der eigenen Token-Verteilung des Modells lokalisiert und stabil gegenüber Bewertern, mit denen es nie trainiert wurde, was auf ein übertragbares Qualitätskonzept hindeutet, nicht auf die Präferenz eines einzelnen Bewerters. Diese Ergebnisse stellen das bewertungsausgerichtete Selbstevaluationsproblem als ein Problem der Hervorlockung und nicht der Akquisition neu dar.

English

Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.