Allineamento Universale dell'Onestà con Annotazioni Efficienti
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
Autori: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
Abstract
L'allineamento dell'onestà - la capacità dei modelli linguistici di grandi dimensioni (LLM) di riconoscere i propri limiti di conoscenza ed esprimere una fiducia calibrata - è essenziale per un dispiegamento affidabile. I metodi esistenti si basano su stime di confidenza senza addestramento (ad esempio, probabilità dei token, autoconsistenza) o su calibrazione basata su addestramento con annotazioni di correttezza. Sebbene efficaci, il raggiungimento di un allineamento universale dell'onestà con la calibrazione basata su addestramento richiede un'etichettatura costosa e su larga scala. Per supportare un addestramento efficiente in termini di annotazioni, introduciamo Elicitation-Then-Calibration (EliCal), un framework in due fasi che prima elicita la confidenza interna utilizzando una supervisione economica di autoconsistenza, poi calibra questa confidenza con un piccolo insieme di annotazioni di correttezza. Per supportare uno studio su larga scala, rilasciamo HonestyBench, un benchmark che copre dieci dataset di QA a risposta libera con 560k istanze di addestramento e 70k di valutazione, annotate con segnali di correttezza e autoconsistenza. Gli esperimenti mostrano che EliCal raggiunge un allineamento quasi ottimale con solo 1k annotazioni di correttezza (0,18% della supervisione completa) e una migliore performance di allineamento su task MMLU non visti rispetto alla baseline di sola calibrazione, offrendo una soluzione scalabile verso l'allineamento universale dell'onestà negli LLM.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.