Alineación Universal de Honestidad con Anotación Eficiente
Annotation-Efficient Universal Honesty Alignment
October 20, 2025
Autores: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI
Resumen
La alineación de honestidad—la capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para reconocer sus límites de conocimiento y expresar confianza calibrada—es esencial para un despliegue confiable. Los métodos existentes se basan en la estimación de confianza sin entrenamiento (por ejemplo, probabilidades de tokens, autoconsistencia) o en la calibración basada en entrenamiento con anotaciones de corrección. Aunque efectivos, lograr una alineación universal de honestidad con calibración basada en entrenamiento requiere un etiquetado costoso y a gran escala. Para apoyar un entrenamiento eficiente en anotaciones, presentamos Elicitation-Then-Calibration (EliCal), un marco de trabajo de dos etapas que primero elicita la confianza interna utilizando una supervisión de autoconsistencia de bajo costo, y luego calibra esta confianza con un pequeño conjunto de anotaciones de corrección. Para respaldar un estudio a gran escala, publicamos HonestyBench, un punto de referencia que cubre diez conjuntos de datos de preguntas y respuestas de formato libre con 560k instancias de entrenamiento y 70k de evaluación, anotadas con señales de corrección y autoconsistencia. Los experimentos muestran que EliCal logra una alineación casi óptima con solo 1k anotaciones de corrección (0.18% de la supervisión completa) y un mejor rendimiento de alineación en tareas MMLU no vistas que la línea base de solo calibración, ofreciendo una solución escalable hacia la alineación universal de honestidad en LLMs.
English
Honesty alignment-the ability of large language models (LLMs) to recognize
their knowledge boundaries and express calibrated confidence-is essential for
trustworthy deployment. Existing methods either rely on training-free
confidence estimation (e.g., token probabilities, self-consistency) or
training-based calibration with correctness annotations. While effective,
achieving universal honesty alignment with training-based calibration requires
costly, large-scale labeling. To support annotation-efficient training, we
introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that
first elicits internal confidence using inexpensive self-consistency
supervision, then calibrates this confidence with a small set of correctness
annotations. To support a large-scale study, we release HonestyBench, a
benchmark covering ten free-form QA datasets with 560k training and 70k
evaluation instances annotated with correctness and self-consistency signals.
Experiments show that EliCal achieves near-optimal alignment with only 1k
correctness annotations (0.18% of full supervision) and better alignment
performance on unseen MMLU tasks than the calibration-only baseline, offering a
scalable solution toward universal honesty alignment in LLMs.