Signatures de flux interne pour l'auto-vérification et l'affinement dans les LLM

Résumé

Les grands modèles de langage peuvent générer des réponses fluides mais infidèles au contexte fourni, tandis que de nombreux mécanismes de sécurité reposent sur une vérification externe ou un jugement séparé après la génération. Nous introduisons des signatures de flux internes qui auditent la formation des décisions à partir de la dynamique en profondeur au niveau d'une frontière de surveillance inter-bloc fixe. La méthode stabilise le mouvement token par token via une surveillance centrée sur les biais, puis résume les trajectoires dans des sous-espaces compacts alignés sur les lectures mobiles, construits à partir du token principal et de ses proches concurrents dans chaque fenêtre de profondeur. Les trames de fenêtres adjacentes sont alignées par un transport orthogonal, produisant des longueurs de pas transportées comparables en profondeur, des angles de rotation et des résumés de dérive des sous-espaces invariants aux choix de base intra-fenêtre. Un validateur GRU léger entraîné sur ces signatures effectue une auto-vérification sans modifier le modèle de base. Au-delà de la détection, le validateur localise un événement de profondeur responsable et permet un raffinement ciblé : le modèle revient au token fautif et corrige un pas transporté anormal au bloc identifié tout en préservant le résidu orthogonal. Le pipeline résultant fournit une localisation actionnable et une auto-vérification à faible surcharge à partir de la dynamique décisionnelle interne. Le code est disponible sur github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Signatures de flux interne pour l'auto-vérification et l'affinement dans les LLM

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Résumé

Support