El Primer Token Sabe: Confianza de Decodificación Única para la Detección de Alucinaciones

Resumen

La autocoherencia detecta alucinaciones generando múltiples respuestas muestreadas a una pregunta y midiendo el acuerdo, pero esto requiere decodificación repetida y puede ser sensible a la variación léxica. La autocoherencia semántica mejora esto agrupando las respuestas muestreadas por significado usando inferencia en lenguaje natural, pero añade tanto coste de muestreo como sobrecarga de inferencia externa. Demostramos que la confianza del primer token, phi_first, calculada a partir de la entropía normalizada de los logits top-K en el primer token de respuesta con contenido de una única decodificación greedy, iguala o supera modestamente a la autocoherencia semántica en tareas de preguntas factuales de respuesta corta sin acceso a contexto. A través de tres modelos de 7-8B ajustados por instrucción y dos benchmarks, phi_first logra una media AUROC de 0.820, comparado con 0.793 para el acuerdo semántico y 0.791 para la autocoherencia estándar de forma superficial. Una prueba de subsunción muestra que phi_first está moderada a fuertemente correlacionada con el acuerdo semántico, y combinar ambas señales produce solo una pequeña mejora en AUROC sobre phi_first por sí sola. Estos resultados sugieren que gran parte de la información de incertidumbre capturada por el acuerdo multi-muestra ya está disponible en la distribución inicial de tokens del modelo. Argumentamos que phi_first debería reportarse como una línea base predeterminada de bajo coste antes de invocar la estimación de incertidumbre basada en muestreo.

English

Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.

El Primer Token Sabe: Confianza de Decodificación Única para la Detección de Alucinaciones

The First Token Knows: Single-Decode Confidence for Hallucination Detection

Resumen

Support