ChatPaper.aiChatPaper

Annotationseffiziente universelle Ehrlichkeitsausrichtung

Annotation-Efficient Universal Honesty Alignment

October 20, 2025
papers.authors: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI

papers.abstract

Ehrlichkeitsausrichtung – die Fähigkeit großer Sprachmodelle (LLMs), ihre Wissensgrenzen zu erkennen und kalibriertes Vertrauen auszudrücken – ist entscheidend für den vertrauenswürdigen Einsatz. Bestehende Methoden stützen sich entweder auf trainingsfreie Konfidenzschätzung (z. B. Token-Wahrscheinlichkeiten, Selbstkonsistenz) oder auf trainingsbasierte Kalibrierung mit Korrektheitsannotationen. Obwohl effektiv, erfordert die universelle Ehrlichkeitsausrichtung mit trainingsbasierter Kalibrierung kostspielige, groß angelegte Beschriftung. Um die annotierungseffiziente Schulung zu unterstützen, führen wir Elicitation-Then-Calibration (EliCal) ein, ein zweistufiges Framework, das zunächst die interne Konfidenz durch kostengünstige Selbstkonsistenzüberwachung ermittelt und dann diese Konfidenz mit einer kleinen Menge von Korrektheitsannotationen kalibriert. Um eine groß angelegte Studie zu ermöglichen, veröffentlichen wir HonestyBench, einen Benchmark, der zehn freie Frage-Antwort-Datensätze mit 560.000 Trainings- und 70.000 Evaluierungsinstanzen umfasst, die mit Korrektheits- und Selbstkonsistenzsignalen annotiert sind. Experimente zeigen, dass EliCal mit nur 1.000 Korrektheitsannotationen (0,18 % der vollen Überwachung) eine nahezu optimale Ausrichtung erreicht und eine bessere Ausrichtungsleistung bei unbekannten MMLU-Aufgaben als die rein kalibrierungsbasierte Baseline bietet, was eine skalierbare Lösung für die universelle Ehrlichkeitsausrichtung in LLMs darstellt.
English
Honesty alignment-the ability of large language models (LLMs) to recognize their knowledge boundaries and express calibrated confidence-is essential for trustworthy deployment. Existing methods either rely on training-free confidence estimation (e.g., token probabilities, self-consistency) or training-based calibration with correctness annotations. While effective, achieving universal honesty alignment with training-based calibration requires costly, large-scale labeling. To support annotation-efficient training, we introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that first elicits internal confidence using inexpensive self-consistency supervision, then calibrates this confidence with a small set of correctness annotations. To support a large-scale study, we release HonestyBench, a benchmark covering ten free-form QA datasets with 560k training and 70k evaluation instances annotated with correctness and self-consistency signals. Experiments show that EliCal achieves near-optimal alignment with only 1k correctness annotations (0.18% of full supervision) and better alignment performance on unseen MMLU tasks than the calibration-only baseline, offering a scalable solution toward universal honesty alignment in LLMs.
PDF192October 21, 2025