Snelste detectie van het ontstaan van hallucinaties: vertragingsgrenzen en geleerde CUSUM-statistieken

Samenvatting

Hallucinatiedetectoren op token-niveau worden geëvalueerd als classifiers, met AUC over alle tokens, maar een streaming monitor wordt beoordeeld op zijn reactietijd: het aantal tokens dat verstrijkt tussen het begin van een hallucinatie en het alarm. We formuleren detectie van het begin van hallucinaties als een probleem van snelste veranderingsdetectie. Een eerste-orde Markovmodel van de latente getrouwe/gehallucineerde toestand, gevalideerd op RAGTruth, plaatst de taak binnen de klassieke veranderingspuntentheorie en levert Lordens ondergrens op voor detectievertraging: ongeveer 1,3 tokens bij een vals-alarmpercentage van 0,01. We laten vervolgens zien dat een causaal recurrent labeler fungeert als een CUSUM met een aangeleerde increment; bij een overeenkomstig vals-alarmpercentage detecteert het in 11–13 tokens, tegen 31 voor een lineaire per-token baseline, en een gecontroleerde decompositie schrijft het grootste deel van dit voordeel toe aan een betere per-token score in plaats van aan temporele accumulatie. Een optimaliteitsstelling van het informatiesnelheidstype van Donsker-Varadhan verklaart de resterende orde-van-grootte kloof: de aangeleerde score realiseert slechts 1/4,5 van de divergentie die de kenmerken dragen, een tekort dat herkalibratie niet kan wegnemen, met de rest een eindige-horizon effect. Classificatiestatistieken verbergen deze vertragingsstructuur; sequentiële analyse maakt het meetbaar.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable