Быстрейшее обнаружение начала галлюцинаций: границы задержки и обученные статистики CUSUM

Аннотация

Детекторы галлюцинаций на уровне токенов оцениваются как классификаторы по AUC по всем токенам, однако стриминговый монитор оценивается по времени реакции: количеству токенов, проходящих между началом галлюцинации и сигналом тревоги. Мы формулируем обнаружение начала галлюцинации как задачу быстрейшего обнаружения изменений. Марковская модель первого порядка скрытого состояния «достоверный/галлюцинирующий», подтверждённая на наборе данных RAGTruth, помещает задачу в рамках классической теории точек изменения и даёт нижнюю границу Лордена на задержку обнаружения: около 1,3 токена при частоте ложных тревог 0,01. Затем мы показываем, что каузальный рекуррентный маркер действует как CUSUM с обученным приращением; при согласованной частоте ложных тревог он обнаруживает за 11–13 токенов, тогда как линейный поточечный базовый метод — за 31 токен, а контролируемое разложение приписывает большую часть этого преимущества лучшей оценке на токен, а не временному накоплению. Теорема оптимальности информационной скорости типа Донскера–Варадана объясняет оставшийся разрыв на порядок величины: обученная оценка реализует лишь 1/4,5 дивергенции, которую несут признаки; этот дефицит не может быть устранён повторной калибровкой, а остаток является эффектом конечного горизонта. Метрики классификации скрывают эту структуру задержки; последовательный анализ делает её измеримой.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable