Firme del Flusso Interno per Autoverifica e Raffinamento nei Modelli Linguistici

Abstract

I grandi modelli linguistici possono generare risposte fluide ma infedeli al contesto fornito, mentre molti meccanismi di sicurezza si basano su verifiche esterne o su un giudice separato dopo la generazione. Introduciamo firme del flusso interno che controllano la formazione delle decisioni dalle dinamiche depthwise a un confine di monitoraggio inter-blocco fisso. Il metodo stabilizza il movimento token-wise tramite monitoraggio bias-centered, per poi riassumere le traiettorie in sottospazi compatti di lettura allineata in movimento, costruiti dal token principale e dai suoi stretti concorrenti all'interno di ogni finestra di profondità. I frame di finestra adiacenti sono allineati da un trasporto ortogonale, producendo lunghezze di passo trasportate comparabili in profondità, angoli di virata e riassunti della deriva del sottospazio che sono invarianti rispetto alle scelte di base all'interno della finestra. Un validatore GRU leggero addestrato su queste firme esegone l'autoverifica senza modificare il modello base. Oltre al rilevamento, il validatore localizza un evento di profondità colpevole e abilita un affinamento mirato: il modello torna indietro al token colpevole e blocca un passo trasportato anomalo nel blocco identificato, preservando il residuo ortogonale. La pipeline risultante fornisce localizzazione azionabile e autoverifica a basso sovraccarico dalle dinamiche decisionali interne. Il codice è disponibile su github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Firme del Flusso Interno per Autoverifica e Raffinamento nei Modelli Linguistici

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Abstract

Support