Le premier token sait : la confiance de décodage unique pour la détection des hallucinations

Résumé

La cohérence interne détecte les hallucinations en générant plusieurs réponses échantillonnées à une question et en mesurant l'accord, mais cela nécessite un décodage répété et peut être sensible aux variations lexicales. La cohérence sémantique interne améliore cette approche en regroupant les réponses échantillonnées par signification à l'aide de l'inférence en langage naturel, mais elle ajoute à la fois un coût d'échantillonnage et une surcharge d'inférence externe. Nous montrons que la confiance du premier token, phi_first, calculée à partir de l'entropie normalisée des logits top-K au premier token porteur de contenu dans une réponse générée par décodage glouton unique, égale ou dépasse modestement la cohérence sémantique interne sur des tâches de questions-réponses factuelles à réponse courte sans documentation. Sur trois modèles de 7-8B paramètres fine-tunés pour l'instruction et deux benchmarks, phi_first atteint une AUROC moyenne de 0,820, contre 0,793 pour l'accord sémantique et 0,791 pour la cohérence interne standard basée sur la forme de surface. Un test de subsomption montre que phi_first est modérément à fortement corrélé avec l'accord sémantique, et combiner les deux signaux n'apporte qu'une faible amélioration de l'AUROC par rapport à phi_first seul. Ces résultats suggèrent qu'une grande partie de l'information d'incertitude capturée par l'accord multi-échantillon est déjà disponible dans la distribution initiale des tokens du modèle. Nous soutenons que phi_first devrait être rapporté comme ligne de base par défaut à faible coût avant de recourir à l'estimation d'incertitude basée sur l'échantillonnage.

English

Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.

Le premier token sait : la confiance de décodage unique pour la détection des hallucinations

The First Token Knows: Single-Decode Confidence for Hallucination Detection

Résumé

Support