Самооценка уже существует: извлечение скрытой калибровки судьи в базовых LLM с минимальными данными

Аннотация

Большие языковые модели все чаще оцениваются другими моделями, что порождает естественный вопрос: может ли модель предсказать, как оценщик оценит ее собственный вывод? Мы обнаружили, что эта способность в значительной степени присутствует еще до любого целевого обучения: при few-shot подсказке базовая модель уже предсказывает многокритериальные оценки качества внешнего оценщика для ответов открытого типа значительно выше случайного уровня по трем тестовым наборам. Мы представляем метод Выявления самооценки (Self-Evaluation Elicitation, SEE), который извлекает эту латентную способность с помощью короткого цикла, включающего фазу подкрепленного обучения, сопряженного с калибровкой, улучшающего ответ и предсказывающего оценщика, за которой следует фаза маскированной дистилляции, уточняющая предсказание без изменения самого ответа. На 160 уникальных примерах, что примерно в 31 раз меньше, чем в базовом подходе с подкрепленным обучением, SEE улучшает калибровку на отложенных данных по трем тестовым наборам, сохраняя при этом качество ответов. Извлеченная самооценка резко локализована в собственном токенном распределении модели и стабильна для оценщиков, на которых модель никогда не обучалась, что указывает на переносимое понятие качества, а не на предпочтения отдельного оценщика. Эти результаты переосмысливают самооценку, согласованную с оценщиком, как проблему выявления, а не приобретения.

English

Large language models are increasingly evaluated by other models, raising a natural question: can a model predict how a judge will score its own output? We find that the ability is largely present before any targeted training: prompted few-shot, a base model already predicts an external judge's multi-attribute quality scores on open-ended responses well above chance across three benchmarks. We introduce Self-Evaluation Elicitation (SEE), a method that surfaces this latent ability through a short cycle comprising a calibration-coupled reinforcement learning phase that improves the answer and predicts the judge, followed by a masked distillation phase that sharpens the prediction while leaving the answer untouched. From 160 unique examples, roughly 31x fewer than a reinforcement learning baseline, SEE improves held-out calibration across three benchmarks while preserving answer quality. The elicited self-evaluation is sharply localized within the model's own token distribution and stable across judges it was never trained against, indicating a transferable notion of quality rather than a single judge's preference. These results reframe judge-aligned self-evaluation as a problem of elicitation rather than acquisition.