Firmas Internas de Flujo para Autoverificación y Refinamiento en Modelos de Lenguaje Grandes

Resumen

Los modelos de lenguaje grandes pueden generar respuestas fluidas que no son fieles al contexto proporcionado, mientras que muchas salvaguardas dependen de verificación externa o de un juez separado tras la generación. Introducimos firmas de flujo interno que auditan la formación de decisiones a partir de la dinámica en profundidad en un límite de monitorización inter-bloque fijo. El método estabiliza el movimiento token a token mediante monitorización centrada en sesgo, y luego resume las trayectorias en subespacios compactos de lectura alineada en movimiento, construidos a partir del token principal y sus competidores cercanos dentro de cada ventana de profundidad. Los fotogramas de ventana adyacentes se alinean mediante un transporte ortogonal, produciendo longitudes de paso transportadas comparables en profundidad, ángulos de giro y resúmenes de deriva del subespacio que son invariantes a las elecciones de base dentro de la ventana. Un validador GRU ligero entrenado con estas firmas realiza una autocomprobación sin modificar el modelo base. Más allá de la detección, el validador localiza un evento de profundidad culpable y permite un refinamiento dirigido: el modelo retrocede al token culpable y sujeta un paso transportado anómalo en el bloque identificado, preservando el residuo ortogonal. La canalización resultante proporciona una localización accionable y una autocomprobación de baja sobrecarga a partir de la dinámica interna de decisiones. El código está disponible en github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.