アノテーション効率の高い普遍的誠実性アラインメント
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
著者: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
要旨
大規模言語モデル(LLMs)が自身の知識の境界を認識し、調整された信頼度を表現する能力である「正直さの整合性(Honesty Alignment)」は、信頼できる展開において不可欠である。既存の手法は、訓練不要の信頼度推定(例:トークン確率、自己一貫性)または正解アノテーションを用いた訓練ベースのキャリブレーションに依存している。これらの手法は有効であるが、訓練ベースのキャリブレーションを用いて普遍的な正直さの整合性を達成するには、大規模なラベリングが必要であり、コストがかかる。アノテーション効率の良い訓練を支援するため、我々は「Elicitation-Then-Calibration(EliCal)」という二段階のフレームワークを提案する。このフレームワークでは、まず低コストな自己一貫性の監視を用いて内部信頼度を引き出し、その後、少量の正解アノテーションを用いてこの信頼度をキャリブレーションする。大規模な研究を支援するため、我々は「HonestyBench」をリリースした。これは、正解と自己一貫性の信号がアノテーションされた56万の訓練インスタンスと7万の評価インスタンスを含む、10の自由形式QAデータセットをカバーするベンチマークである。実験結果は、EliCalがわずか1,000の正解アノテーション(完全監視の0.18%)でほぼ最適な整合性を達成し、未見のMMLUタスクにおいてキャリブレーションのみのベースラインよりも優れた整合性能を示すことを示しており、LLMsにおける普遍的な正直さの整合性に向けたスケーラブルなソリューションを提供する。
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.