Alignement Universel de l'Honnêteté à Annotation Efficace
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
papers.authors: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
papers.abstract
L'alignement de l'honnêteté — la capacité des grands modèles de langage (LLMs) à reconnaître leurs limites de connaissances et à exprimer une confiance calibrée — est essentiel pour un déploiement fiable. Les méthodes existantes reposent soit sur l'estimation de confiance sans entraînement (par exemple, les probabilités de tokens, l'auto-cohérence), soit sur la calibration basée sur l'entraînement avec des annotations de correction. Bien qu'elles soient efficaces, atteindre un alignement universel de l'honnêteté avec la calibration basée sur l'entraînement nécessite un étiquetage coûteux et à grande échelle. Pour soutenir un entraînement efficace en termes d'annotations, nous introduisons Elicitation-Then-Calibration (EliCal), un cadre en deux étapes qui suscite d'abord la confiance interne en utilisant une supervision peu coûteuse basée sur l'auto-cohérence, puis calibre cette confiance avec un petit ensemble d'annotations de correction. Pour soutenir une étude à grande échelle, nous publions HonestyBench, un benchmark couvrant dix ensembles de données de questions-réponses libres avec 560 000 instances d'entraînement et 70 000 instances d'évaluation annotées avec des signaux de correction et d'auto-cohérence. Les expériences montrent qu'EliCal atteint un alignement quasi optimal avec seulement 1 000 annotations de correction (0,18 % de la supervision complète) et une meilleure performance d'alignement sur les tâches MMLU non vues que la base de référence de calibration seule, offrant ainsi une solution évolutive vers un alignement universel de l'honnêteté dans les LLMs.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.