Détection la plus rapide du début d'hallucination : bornes de retard et statistiques CUSUM apprises

Résumé

Les détecteurs d'hallucination au niveau des tokens sont évalués en tant que classifieurs, par AUC sur l'ensemble des tokens, mais un moniteur en continu est jugé par son temps de réaction : le nombre de tokens qui s'écoulent entre l'apparition d'une hallucination et l'alarme. Nous formulons la détection du début d'hallucination comme un problème de détection de changement le plus rapide. Un modèle de Markov du premier ordre de l'état latent fidèle/hallucinatoire, validé sur RAGTruth, situe la tâche dans le cadre de la théorie classique des points de changement et fournit la borne inférieure de Lorden sur le délai de détection : environ 1,3 token à un taux de fausses alarmes de 0,01. Nous montrons ensuite qu'un étiqueteur récurrent causal agit comme un CUSUM avec un incrément appris ; à un taux de fausses alarmes équivalent, il détecte en 11 à 13 tokens, contre 31 pour une baseline linéaire par token, et une décomposition contrôlée attribue la majeure partie de cet avantage à un meilleur score par token plutôt qu'à une accumulation temporelle. Un théorème d'optimalité du taux d'information de type Donsker-Varadhan explique l'écart d'ordre de grandeur restant : le score appris ne réalise qu'1/4,5 de la divergence portée par les caractéristiques, un déficit que le recalibrage ne peut combler, le reste étant un effet d'horizon fini. Les métriques de classification masquent cette structure de délai ; l'analyse séquentielle la rend mesurable.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable