Alinhamento Universal de Honestidade com Eficiência de Anotação
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
Autores: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
Resumo
O alinhamento de honestidade - a capacidade dos grandes modelos de linguagem (LLMs) de reconhecer seus limites de conhecimento e expressar confiança calibrada - é essencial para uma implantação confiável. Os métodos existentes dependem de estimativas de confiança sem treinamento (por exemplo, probabilidades de tokens, auto-consistência) ou de calibração baseada em treinamento com anotações de correção. Embora eficazes, alcançar o alinhamento universal de honestidade com calibração baseada em treinamento requer rotulagem em grande escala e custosa. Para apoiar o treinamento eficiente em termos de anotação, introduzimos o Elicitation-Then-Calibration (EliCal), um framework de duas etapas que primeiro elicita a confiança interna usando supervisão de auto-consistência de baixo custo, e depois calibra essa confiança com um pequeno conjunto de anotações de correção. Para apoiar um estudo em grande escala, lançamos o HonestyBench, um benchmark que abrange dez conjuntos de dados de QA de formato livre com 560k instâncias de treinamento e 70k de avaliação, anotadas com sinais de correção e auto-consistência. Os experimentos mostram que o EliCal alcança um alinhamento quase ótimo com apenas 1k anotações de correção (0,18% da supervisão total) e um desempenho de alinhamento melhor em tarefas MMLU não vistas do que a linha de base de apenas calibração, oferecendo uma solução escalável para o alinhamento universal de honestidade em LLMs.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.