Der erste Token weiß: Einzel-Decode-Konfidenz zur Halluzinationserkennung
The First Token Knows: Single-Decode Confidence for Hallucination Detection
May 6, 2026
Autoren: Mina Gabriel
cs.AI
Zusammenfassung
Self-Consistency erkennt Halluzinationen, indem mehrere Stichprobenantworten auf eine Frage generiert und die Übereinstimmung gemessen wird. Dies erfordert jedoch wiederholtes Decodieren und kann anfällig für lexikalische Variation sein. Semantische Self-Consistency verbessert dies, indem Stichprobenantworten nach ihrer Bedeutung mithilfe von Natural Language Inference gruppiert werden, was jedoch sowohl zusätzliche Stichprobenkosten als auch externen Inferenzaufwand verursacht. Wir zeigen, dass die First-Token-Confidence, phi_first, die aus der normalisierten Entropie der Top-K-Logits am ersten inhalttragenden Antworttoken einer einzelnen greedy-Decodierung berechnet wird, die semantische Self-Consistency bei closed-book Faktenfragen mit Kurzantworten erreicht oder geringfügig übertrifft. Über drei 7-8B Instruction-tuned-Modelle und zwei Benchmarks hinweg erreicht phi_first einen mittleren AUROC-Wert von 0,820, verglichen mit 0,793 für semantische Übereinstimmung und 0,791 für Standard-Self-Consistency auf Oberflächenformebene. Ein Subsumptionstest zeigt, dass phi_first moderat bis stark mit der semantischen Übereinstimmung korreliert, und die Kombination der beiden Signale führt nur zu einer geringen AUROC-Verbesserung gegenüber phi_first allein. Diese Ergebnisse deuten darauf hin, dass ein Großteil der durch Mehrfachstichproben-Übereinstimmung erfassten Unsicherheitsinformationen bereits in der anfänglichen Tokenverteilung des Modells enthalten ist. Wir plädieren dafür, phi_first als standardmäßige Low-Cost-Baseline zu berichten, bevor auf stichprobenbasierte Unsicherheitsschätzung zurückgegriffen wird.
English
Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.