첫 번째 토큰이 안다: 환각 감지를 위한 단일 디코딩 신뢰도
The First Token Knows: Single-Decode Confidence for Hallucination Detection
May 6, 2026
저자: Mina Gabriel
cs.AI
초록
자기 일관성(self-consistency)은 질문에 대한 여러 샘플 답변을 생성하고 일치도를 측정하여 환각 현상을 감지하지만, 이는 반복적인 디코딩을 필요로 하며 어휘적 변동에 민감할 수 있습니다. 의미적 자기 일관성(semantic self-consistency)은 자연어 추론을 통해 샘플 답변을 의미별로 클러스터링하여 이를 개선하지만, 추가 샘플링 비용과 외부 추론 오버헤드를 동시에 발생시킵니다. 본 연구에서는 단일 greedy 디코딩에서 첫 번째 내용 포함(answer-bearing) 토큰의 상위-K 로짓(logits)의 정규화 엔트로피로 계산된 첫 번째 토큰 신뢰도(phi_first)가 폐쇄형 단답형 사실 질의응답에서 의미적 자기 일관성과 동등하거나 약간 더 나은 성능을 보인다는 것을 입증합니다. 3개의 70-80억 파라미터 명령어 튜닝 모델과 2개의 벤치마크에 걸쳐, phi_first는 평균 AUROC 0.820을 달성한 반면, 의미적 일치도는 0.793, 표준 표면 형태 자기 일관성은 0.791을 기록했습니다. 포섭 검증(subsumption test) 결과, phi_first는 의미적 일치도와 중간에서 강한 상관관계를 보였으며, 두 신호를 결합해도 phi_first 단독 사용 대비 AUROC 향상폭은 미미했습니다. 이러한 결과는 다중 샘플 일치도가 포착하는 불확실성 정보의 상당 부분이 이미 모델의 초기 토큰 분포에 내재되어 있음을 시사합니다. 따라서 샘플링 기반 불확실성 추정을 적용하기 전에 저비용 기본 기준선으로 phi_first를 반드시 보고해야 함을 주장합니다.
English
Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.