L'auto-évaluation est déjà là : susciter la calibration latente du juge dans les LLMs de base avec un minimum de données

Résumé

Les grands modèles de langage sont de plus en plus évalués par d'autres modèles, ce qui soulève une question naturelle : un modèle peut-il prédire comment un juge notera sa propre production ? Nous constatons que cette capacité est largement présente avant tout entraînement ciblé : avec une sollicitation few-shot, un modèle de base prédit déjà les scores de qualité multi-attributs d'un juge externe sur des réponses ouvertes, bien au-dessus du hasard, sur trois bancs d'essai. Nous introduisons l'Elicitation d'Auto-Évaluation (SEE), une méthode qui fait émerger cette capacité latente via un court cycle comprenant une phase d'apprentissage par renforcement couplée à la calibration, améliorant la réponse et prédisant le juge, suivie d'une phase de distillation masquée qui affine la prédiction sans modifier la réponse. À partir de 160 exemples uniques, soit environ 31 fois moins qu'une baseline d'apprentissage par renforcement, SEE améliore la calibration sur données non vues sur trois bancs d'essai tout en préservant la qualité des réponses. L'auto-évaluation ainsi elicité est nettement localisée dans la distribution de tokens propre au modèle et reste stable à travers des juges jamais rencontrés lors de l'entraînement, ce qui indique une notion de qualité transférable plutôt qu'une préférence d'un juge unique. Ces résultats reformulent l'auto-évaluation alignée sur le juge comme un problème d'élicitation plutôt que d'acquisition.

English

Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.