Interne Flusssignaturen zur Selbstüberprüfung und Verfeinerung in LLMs

Zusammenfassung

Große Sprachmodelle können flüssige Antworten generieren, die nicht mit dem bereitgestellten Kontext übereinstimmen, während viele Sicherheitsvorkehrungen auf externe Verifikation oder eine separate Bewertung nach der Generierung angewiesen sind. Wir führen interne Flusssignaturen ein, die die Entscheidungsbildung anhand von tiefenweisen Dynamiken an einer festen Überwachungsgrenze zwischen Blöcken überprüfen. Die Methode stabilisiert die tokenweise Bewegung durch bias-zentrierte Überwachung und fasst dann Trajektorien in kompakten, beweglichen, leseausrichteten Unterräumen zusammen, die aus dem Top-Token und seinen engsten Konkurrenten innerhalb jedes Tiefenfensters konstruiert werden. Benachbarte Fenster werden durch einen orthogonalen Transport ausgerichtet, was zu tiefenvergleichbaren transportierten Schrittlängen, Drehwinkeln und Unterraumdrift-Zusammenfassungen führt, die invariant gegenüber Basiswahl innerhalb des Fensters sind. Ein leichtgewichtiger GRU-Validator, der auf diesen Signaturen trainiert wurde, führt eine Selbstüberprüfung durch, ohne das Basismodell zu verändern. Über die bloße Erkennung hinaus lokalisiert der Validator ein verantwortliches Tiefenereignis und ermöglicht eine gezielte Verfeinerung: Das Modell rollt auf den verantwortlichen Token zurück und klemmt einen abnormalen transportierten Schritt am identifizierten Block ab, während der orthogonale Rest erhalten bleibt. Die resultierende Pipeline bietet umsetzbare Lokalisierung und Selbstüberprüfung mit geringem Overhead aus internen Entscheidungsdynamiken. Code ist verfügbar unter github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Interne Flusssignaturen zur Selbstüberprüfung und Verfeinerung in LLMs

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Zusammenfassung

Support