Interne Stroomkenmerken voor Zelfcontrole en Verfijning in LLM's

Samenvatting

Grote taalmodellen kunnen vloeiende antwoorden genereren die onjuist zijn ten opzichte van de geboden context, terwijl veel veiligheidsmaatregelen afhankelijk zijn van externe verificatie of een afzonderlijke beoordeling ná generatie. Wij introduceren interne-stroomsignaturen die de besluitvorming auditen aan de hand van dieptewijze dynamiek op een vaste monitoringgrens tussen blokken. De methode stabiliseert token-gewijze beweging via bias-gemeten monitoring, en vat vervolgens trajecten samen in compacte, bewegende uitlees-uitgelijnde deelruimten, geconstrueerd vanuit de top-token en zijn naaste concurrenten binnen elk dieptevenster. Aangrenzende vensterframes worden uitgelijnd door een orthogonaal transport, wat diepte-vergelijkbare getransporteerde stapgroottes, draaihoeken en deelruimtdrift-samenvattingen oplevert die invariant zijn voor basiskeuzes binnen het venster. Een lichtgewicht GRU-validator, getraind op deze signaturen, voert zelfcontrole uit zonder het basismodel aan te passen. Naast detectie lokaliseert de validator een oorzakelijke diepteg gebeurtenis en maakt een gerichte verfijning mogelijk: het model keert terug naar de oorzakelijke token en klemt een abnormale getransporteerde stap vast bij het geïdentificeerde blok, terwijl de orthogonale residu behouden blijft. De resulterende pijplijn biedt uitvoerbare lokalisatie en zelfcontrole met lage overhead, gebaseerd op interne beslisdynamiek. Code is beschikbaar op github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Interne Stroomkenmerken voor Zelfcontrole en Verfijning in LLM's

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Samenvatting

Support