Detecção Mais Rápida do Início de Alucinação: Limites de Atraso e Estatísticas CUSUM Aprendidas

Resumo

Detectores de alucinação no nível do token são avaliados como classificadores, por AUC sobre todos os tokens, mas um monitor de streaming é julgado pelo seu tempo de reação: o número de tokens que passam entre o início de uma alucinação e o alarme. Formulamos a detecção do início da alucinação como um problema de detecção de mudança mais rápida. Um modelo de Markov de primeira ordem do estado latente fiel/alucinado, validado no RAGTruth, insere a tarefa na teoria clássica de pontos de mudança e fornece o limite inferior de Lorden para o atraso de detecção: cerca de 1,3 tokens para uma taxa de falsos alarmes de 0,01. Em seguida, mostramos que um rotulador recorrente causal atua como um CUSUM com um incremento aprendido; com uma taxa de falsos alarmes correspondente, ele detecta em 11–13 tokens, contra 31 para uma linha de base linear por token, e uma decomposição controlada atribui a maior parte dessa vantagem a uma melhor pontuação por token, em vez de à acumulação temporal. Um teorema de otimalidade da taxa de informação do tipo Donsker–Varadhan explica a lacuna restante de ordem de magnitude: a pontuação aprendida realiza apenas 1/4,5 da divergência que as características transportam, um déficit que a recalibração não pode remover, sendo o restante um efeito de horizonte finito. As métricas de classificação ocultam essa estrutura de atraso; a análise sequencial a torna mensurável.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable