La autoevaluación ya está presente: induciendo la calibración latente de jueces en LLMs base con datos mínimos

Resumen

Los modelos de lenguaje grandes son cada vez más evaluados por otros modelos, lo que plantea una pregunta natural: ¿puede un modelo predecir cómo un juez puntuará su propia salida? Encontramos que esta capacidad está presente en gran medida antes de cualquier entrenamiento dirigido: mediante pocos ejemplos, un modelo base ya predice las puntuaciones de calidad multi-atributo de un juez externo para respuestas abiertas muy por encima del azar en tres puntos de referencia. Introducimos la Elicitación de Autoevaluación (SEE, por sus siglas en inglés), un método que saca a la superficie esta capacidad latente mediante un ciclo breve que comprende una fase de aprendizaje por refuerzo acoplado a calibración, que mejora la respuesta y predice al juez, seguida de una fase de destilación enmascarada que agudiza la predicción mientras deja la respuesta intacta. A partir de 160 ejemplos únicos, aproximadamente 31 veces menos que una línea base de aprendizaje por refuerzo, SEE mejora la calibración en datos no vistos en tres puntos de referencia, preservando la calidad de la respuesta. La autoevaluación elicitada se localiza de manera nítida dentro de la distribución de tokens del propio modelo y es estable frente a jueces con los que nunca fue entrenado, lo que indica una noción transferible de calidad en lugar de la preferencia de un juez único. Estos resultados replantean la autoevaluación alineada con el juez como un problema de elicitación más que de adquisición.

English

Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.