ChatPaper.aiChatPaper

주석 효율적 보편적 정직성 정렬

Annotation-Efficient Universal Honesty Alignment

October 20, 2025
저자: Shiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng
cs.AI

초록

대형 언어 모델(LLMs)이 자신의 지식 경계를 인식하고 보정된 신뢰도를 표현할 수 있는 능력인 '정직성 정렬(Honesty alignment)'은 신뢰할 수 있는 배포에 필수적입니다. 기존 방법들은 훈련 없이도 신뢰도를 추정하는 방법(예: 토큰 확률, 자기 일관성)이나 정답 주석을 활용한 훈련 기반 보정 방법을 사용합니다. 이러한 방법들은 효과적이지만, 훈련 기반 보정을 통해 보편적인 정직성 정렬을 달성하려면 비용이 많이 드는 대규모 라벨링이 필요합니다. 주석 효율적인 훈련을 지원하기 위해, 우리는 Elicitation-Then-Calibration(EliCal)이라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는 먼저 저렴한 자기 일관성 감독을 통해 내부 신뢰도를 유도한 다음, 소량의 정답 주석을 사용하여 이 신뢰도를 보정합니다. 대규모 연구를 지원하기 위해, 우리는 정답 및 자기 일관성 신호가 주석된 560k 훈련 및 70k 평가 인스턴스로 구성된 10개의 자유형 QA 데이터셋을 포함한 HonestyBench 벤치마크를 공개합니다. 실험 결과, EliCal은 단 1k개의 정답 주석(전체 감독의 0.18%)만으로도 최적에 가까운 정렬을 달성했으며, 보정만 수행한 베이스라인보다 보이지 않는 MMLU 작업에서 더 나은 정렬 성능을 보여, LLMs의 보편적인 정직성 정렬을 위한 확장 가능한 솔루션을 제공합니다.
English
Honesty alignment-the ability of large language models (LLMs) to recognize their knowledge boundaries and express calibrated confidence-is essential for trustworthy deployment. Existing methods either rely on training-free confidence estimation (e.g., token probabilities, self-consistency) or training-based calibration with correctness annotations. While effective, achieving universal honesty alignment with training-based calibration requires costly, large-scale labeling. To support annotation-efficient training, we introduce Elicitation-Then-Calibration (EliCal), a two-stage framework that first elicits internal confidence using inexpensive self-consistency supervision, then calibrates this confidence with a small set of correctness annotations. To support a large-scale study, we release HonestyBench, a benchmark covering ten free-form QA datasets with 560k training and 70k evaluation instances annotated with correctness and self-consistency signals. Experiments show that EliCal achieves near-optimal alignment with only 1k correctness annotations (0.18% of full supervision) and better alignment performance on unseen MMLU tasks than the calibration-only baseline, offering a scalable solution toward universal honesty alignment in LLMs.
PDF192October 21, 2025