Alinhamento Universal de Honestidade com Eficiência de Anotação

Resumo

O alinhamento de honestidade - a capacidade dos grandes modelos de linguagem (LLMs) de reconhecer seus limites de conhecimento e expressar confiança calibrada - é essencial para uma implantação confiável. Os métodos existentes dependem de estimativas de confiança sem treinamento (por exemplo, probabilidades de tokens, auto-consistência) ou de calibração baseada em treinamento com anotações de correção. Embora eficazes, alcançar o alinhamento universal de honestidade com calibração baseada em treinamento requer rotulagem em grande escala e custosa. Para apoiar o treinamento eficiente em termos de anotação, introduzimos o Elicitation-Then-Calibration (EliCal), um framework de duas etapas que primeiro elicita a confiança interna usando supervisão de auto-consistência de baixo custo, e depois calibra essa confiança com um pequeno conjunto de anotações de correção. Para apoiar um estudo em grande escala, lançamos o HonestyBench, um benchmark que abrange dez conjuntos de dados de QA de formato livre com 560k instâncias de treinamento e 70k de avaliação, anotadas com sinais de correção e auto-consistência. Os experimentos mostram que o EliCal alcança um alinhamento quase ótimo com apenas 1k anotações de correção (0,18% da supervisão total) e um desempenho de alinhamento melhor em tarefas MMLU não vistas do que a linha de base de apenas calibração, oferecendo uma solução escalável para o alinhamento universal de honestidade em LLMs.

English

Honesty alignment-the ability of large language models (LLMs) to recognize their knowledge boundaries and express calibrated confidence-is essential for trustworthy deployment. Existing methods either rely on training-free confidence estimation (e.g., token probabilities, self-consistency) or training-based calibration with correctness annotations. While effective, achieving universal honesty alignment with training-based calibration requires costly, large-scale labeling. To support annotation-efficient training, we introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that first elicits internal confidence using inexpensive self-consistency supervision, then calibrates this confidence with a small set of correctness annotations. To support a large-scale study, we release HonestyBench, a benchmark covering ten free-form QA datasets with 560k training and 70k evaluation instances annotated with correctness and self-consistency signals. Experiments show that EliCal achieves near-optimal alignment with only 1k correctness annotations (0.18% of full supervision) and better alignment performance on unseen MMLU tasks than the calibration-only baseline, offering a scalable solution toward universal honesty alignment in LLMs.

Alinhamento Universal de Honestidade com Eficiência de Anotação

Annotation-Efficient Universal Honesty Alignment

Resumo

Support