Detección más rápida del inicio de alucinaciones: cotas de retardo y estadísticas CUSUM aprendidas

Resumen

Los detectores de alucinaciones a nivel de token se evalúan como clasificadores mediante el AUC sobre todos los tokens, sin embargo, un monitor en streaming se juzga por su tiempo de reacción: el número de tokens que transcurren entre el inicio de una alucinación y la alarma. Formulamos la detección del inicio de alucinaciones como un problema de detección del cambio más rápido. Un modelo de Markov de primer orden del estado latente fiel/alucinado, validado en RAGTruth, sitúa la tarea dentro de la teoría clásica de puntos de cambio y proporciona la cota inferior de Lorden sobre el retraso de detección: aproximadamente 1,3 tokens con una tasa de falsas alarmas de 0,01. Luego mostramos que un etiquetador recurrente causal actúa como un CUSUM con un incremento aprendido; con una tasa de falsas alarmas igualada, detecta en 11-13 tokens, frente a 31 para una línea base lineal por token, y una descomposición controlada atribuye la mayor parte de esta ventaja a una mejor puntuación por token más que a la acumulación temporal. Un teorema de optimalidad de tasa de información de tipo Donsker-Varadhan explica la brecha restante de orden de magnitud: la puntuación aprendida solo realiza 1/4,5 de la divergencia que portan las características, un déficit que la recalibración no puede eliminar, siendo el resto un efecto de horizonte finito. Las métricas de clasificación ocultan esta estructura de retraso; el análisis secuencial la hace medible.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable