Zelfevaluatie is reeds aanwezig: het ontlokken van latente beoordelaarscalibratie in basis-LLM's met minimale data

Samenvatting

Grote taalmodellen worden steeds vaker geëvalueerd door andere modellen, wat een natuurlijke vraag oproept: kan een model voorspellen hoe een beoordelaar de eigen output zal beoordelen? We ontdekken dat dit vermogen grotendeels aanwezig is vóór enige gerichte training: met few-shot prompting voorspelt een basismodel al de multi-attribuut kwaliteitsscores van een externe beoordelaar voor open antwoorden, ruim boven het kansniveau, over drie benchmarks. We introduceren Self-Evaluation Elicitation (SEE), een methode die dit latente vermogen naar boven haalt via een korte cyclus bestaande uit een calibratie-gekoppelde reinforcement learning fase die het antwoord verbetert en de beoordelaar voorspelt, gevolgd door een gemaskeerde distillatiefase die de voorspelling aanscherpt terwijl het antwoord onaangetast blijft. Met 160 unieke voorbeelden, ongeveer 31 keer minder dan een reinforcement learning baseline, verbetert SEE de calibratie op een aparte validatieset over drie benchmarks, terwijl de antwoordkwaliteit behouden blijft. De geëliciteerde zelfevaluatie is scherp gelokaliseerd binnen de eigen tokenverdeling van het model en stabiel over beoordelaars waartegen het nooit getraind is, wat wijst op een overdraagbaar kwaliteitsbegrip in plaats van een voorkeur van een enkele beoordelaar. Deze resultaten herkaderen beoordelaar-afgestemde zelfevaluatie als een probleem van eliciteren in plaats van verwerven.

English

Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.