Het eerste token weet: Enkelvoudige decodeerbetrouwbaarheid voor hallucinatiedetectie

Samenvatting

Zelfconsistentie detecteert hallucinaties door meerdere bemonsterde antwoorden op een vraag te genereren en overeenstemming te meten, maar dit vereist herhaalde decoding en kan gevoelig zijn voor lexicale variatie. Semantische zelfconsistentie verbetert dit door bemonsterde antwoorden op betekenis te clusteren met natuurlijke taalinferentie, maar het voegt zowel bemonsteringskosten als externe inferentie-overhead toe. Wij tonen aan dat eerste-token-betrouwbaarheid, phi_first, berekend uit de genormaliseerde entropie van de top-K logits bij het eerste inhoudsdragende antwoordtoken van een enkele gretige decode, gelijk is aan of bescheiden beter presteert dan semantische zelfconsistentie bij gesloten-boek feitelijke vraag-antwoordtaken met korte antwoorden. Over drie 7-8B instructie-afgestemde modellen en twee benchmarks heen bereikt phi_first een gemiddelde AUROC van 0,820, vergeleken met 0,793 voor semantische overeenstemming en 0,791 voor standaard zelfconsistentie op oppervlaktevorm. Een subsumptietest toont aan dat phi_first matig tot sterk gecorreleerd is met semantische overeenstemming, en het combineren van de twee signalen levert slechts een kleine AUROC-verbetering op ten opzichte van phi_first alleen. Deze resultaten suggereren dat veel van de onzekerheidsinformatie die wordt vastgelegd door multi-sample-overeenstemming reeds beschikbaar is in de initiële tokenverdeling van het model. Wij beargumenteren dat phi_first standaard gerapporteerd zou moeten worden als een laagkosten-basislijn alvorens over te gaan op op bemonstering gebaseerde onzekerheidsschatting.

English

Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.

Het eerste token weet: Enkelvoudige decodeerbetrouwbaarheid voor hallucinatiedetectie

The First Token Knows: Single-Decode Confidence for Hallucination Detection

Samenvatting

Support