Аннотационно-эффективное универсальное согласование честности
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
Авторы: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
Аннотация
Выравнивание честности — способность крупных языковых моделей (LLM) распознавать границы своих знаний и выражать калиброванную уверенность — является ключевым для надежного внедрения. Существующие методы либо полагаются на оценку уверенности без обучения (например, вероятности токенов, самосогласованность), либо на калибровку с обучением с использованием аннотаций правильности. Хотя эти методы эффективны, достижение универсального выравнивания честности с калибровкой на основе обучения требует дорогостоящего масштабного аннотирования. Для поддержки обучения с минимальным объемом аннотаций мы представляем Elicitation-Then-Calibration (EliCal) — двухэтапную структуру, которая сначала выявляет внутреннюю уверенность с использованием недорогого контроля самосогласованности, а затем калибрует эту уверенность с небольшим набором аннотаций правильности. Для проведения масштабного исследования мы выпускаем HonestyBench — бенчмарк, охватывающий десять наборов данных с вопросами в свободной форме, включающий 560 тыс. обучающих и 70 тыс. оценочных примеров, аннотированных сигналами правильности и самосогласованности. Эксперименты показывают, что EliCal достигает почти оптимального выравнивания с использованием всего 1 тыс. аннотаций правильности (0,18% от полного контроля) и демонстрирует лучшую производительность по выравниванию на неизвестных задачах MMLU по сравнению с базовым подходом, использующим только калибровку, предлагая масштабируемое решение для универсального выравнивания честности в LLM.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.