Annotatie-efficiënte universele eerlijkheidsafstemming
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
Auteurs: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
Samenvatting
Eerlijkheidsafstemming - het vermogen van grote taalmmodellen (LLMs) om hun kennisgrenzen te herkennen en gekalibreerd vertrouwen uit te drukken - is essentieel voor betrouwbare inzet. Bestaande methoden vertrouwen ofwel op trainingsvrije betrouwbaarheidsschatting (bijv., tokenwaarschijnlijkheden, zelfconsistentie) of op trainingsgebaseerde kalibratie met correctheidsannotaties. Hoewel effectief, vereist het bereiken van universele eerlijkheidsafstemming met trainingsgebaseerde kalibratie kostbare, grootschalige labeling. Om annotatie-efficiënte training te ondersteunen, introduceren we Elicitation-Then-Calibration (EliCal), een tweestappenraamwerk dat eerst intern vertrouwen oproept met goedkope zelfconsistentiebegeleiding, en vervolgens dit vertrouwen kalibreert met een kleine set correctheidsannotaties. Om een grootschalige studie te ondersteunen, lanceren we HonestyBench, een benchmark die tien vrije-vraag-antwoorddatasets omvat met 560k trainings- en 70k evaluatie-instanties geannoteerd met correctheids- en zelfconsistentiesignalen. Experimenten tonen aan dat EliCal bijna optimale afstemming bereikt met slechts 1k correctheidsannotaties (0,18% van volledige begeleiding) en betere afstemmingsprestaties op onbekende MMLU-taken dan de alleen-kalibratie-baseline, wat een schaalbare oplossing biedt voor universele eerlijkheidsafstemming in LLMs.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.