Первый токен знает: уверенность при однократном декодировании для обнаружения галлюцинаций
The First Token Knows: Single-Decode Confidence for Hallucination Detection
May 6, 2026
Авторы: Mina Gabriel
cs.AI
Аннотация
Метод самосогласованности выявляет галлюцинации путем генерации нескольких вариантов ответов на вопрос и измерения их согласованности, однако это требует многократного декодирования и может быть чувствительно к лексическим вариациям. Семантическая самосогласованность улучшает этот подход, кластеризуя варианты ответов по смыслу с использованием логического вывода на естественном языке, но добавляет как стоимость сэмплирования, так и дополнительные вычислительные затраты на вывод. Мы показываем, что уверенность по первому токену (phi_first), вычисляемая как нормированная энтропия топ-K логитов на первом содержательном токене ответа при однократном жадном декодировании, соответствует или незначительно превосходит семантическую самосогласованность в задачах фактического закрытого вопросно-ответного поиска с короткими ответами. На трех инстрyктивно-обученных моделях размером 7-8B параметров и двух бенчмарках phi_first демонстрирует среднее значение AUROC 0.820 против 0.793 для семантического согласия и 0.791 для стандартной самосогласованности по поверхностной форме. Тест на поглощение показывает, что phi_first имеет умеренную или сильную корреляцию с семантическим согласием, а комбинирование двух сигналов дает лишь незначительное улучшение AUROC по сравнению с использованием только phi_first. Эти результаты свидетельствуют, что большая часть информации о неопределенности, фиксируемой многосэмпловым согласием, уже содержится в начальном распределении токенов модели. Мы утверждаем, что phi_first следует использовать в качестве стандартного низкозатратного базового метода перед применением методов оценки неопределенности на основе сэмплирования.
English
Self-consistency detects hallucinations by generating multiple sampled answers to a question and measuring agreement, but this requires repeated decoding and can be sensitive to lexical variation. Semantic self-consistency improves this by clustering sampled answers by meaning using natural language inference, but it adds both sampling cost and external inference overhead. We show that first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode, matches or modestly exceeds semantic self-consistency on closed-book short-answer factual question answering. Across three 7-8B instruction-tuned models and two benchmarks, phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency. A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement, and combining the two signals yields only a small AUROC improvement over phi_first alone. These results suggest that much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution. We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation.