Schnellste Erkennung des Halluzinationsbeginns: Verzögerungsgrenzen und gelernte CUSUM-Statistiken

Zusammenfassung

Token-basierte Halluzinationsdetektoren werden als Klassifikatoren evaluiert, anhand des AUC über alle Token, während ein Streaming-Monitor nach seiner Reaktionszeit beurteilt wird: der Anzahl der Token, die zwischen dem Beginn einer Halluzination und dem Alarm vergehen. Wir formulieren die Erkennung des Halluzinationsbeginns als ein Problem der schnellsten Veränderungserkennung. Ein Markov-Modell erster Ordnung des latenten treuen/halluzinierten Zustands, validiert auf RAGTruth, ordnet die Aufgabe in die klassische Change-Point-Theorie ein und liefert Lordens untere Schranke für die Erkennungsverzögerung: etwa 1,3 Token bei einer Falschalarmrate von 0,01. Wir zeigen dann, dass ein kausaler rekurrenter Labeler als CUSUM mit einem gelernten Inkrement fungiert; bei einer angepassten Falschalarmrate erkennt er in 11–13 Token, gegenüber 31 für eine lineare Pro-Token-Baseline, und eine kontrollierte Zerlegung führt den Großteil dieses Vorteils auf einen besseren Pro-Token-Score zurück, nicht auf zeitliche Akkumulation. Ein Optimalitätssatz vom Donsker-Varadhan-Typ für die Informationsrate erklärt die verbleibende Größenordnungslücke: Der gelernte Score realisiert nur 1/4,5 der von den Merkmalen getragenen Divergenz, ein Defizit, das durch Rekalibrierung nicht behoben werden kann, wobei der Rest ein Effekt des endlichen Horizonts ist. Klassifikationsmetriken verbergen diese Verzögerungsstruktur; sequenzielle Analyse macht sie messbar.

English

Token-level hallucination detectors are evaluated as classifiers, by AUC over all tokens, yet a streaming monitor is judged by its reaction time: the number of tokens that pass between the onset of a hallucination and the alarm. We formulate hallucination onset detection as a quickest change detection problem. A first-order Markov model of the latent faithful/hallucinated state, validated on RAGTruth, places the task inside classical change-point theory and yields Lorden's lower bound on detection delay: about 1.3 tokens at a false-alarm rate of 0.01. We then show that a causal recurrent labeler acts as a CUSUM with a learned increment; at a matched false-alarm rate it detects in 11-13 tokens, against 31 for a linear per-token baseline, and a controlled decomposition attributes most of this advantage to a better per-token score rather than to temporal accumulation. An information-rate optimality theorem of Donsker-Varadhan type explains the remaining order-of-magnitude gap: the learned score realizes only 1/4.5 of the divergence the features carry, a deficit that recalibration cannot remove, with the remainder a finite-horizon effect. Classification metrics conceal this delay structure; sequential analysis makes it measurable