Assinaturas de Fluxo Interno para Autoverificação e Refinamento em LLMs

Resumo

Os grandes modelos de linguagem podem gerar respostas fluidas que são infiéis ao contexto fornecido, enquanto muitas salvaguardas dependem de verificação externa ou de um juiz separado após a geração. Introduzimos assinaturas de fluxo interno que auditam a formação de decisões a partir da dinâmica em profundidade em um limite de monitoramento inter-bloco fixo. O método estabiliza o movimento token a token via monitoramento centrado em viés, então resume trajetórias em subespaços compactos de leitura alinhada em movimento, construídos a partir do token principal e seus concorrentes próximos dentro de cada janela de profundidade. Quadros de janela vizinhos são alinhados por um transporte ortogonal, produzindo comprimentos de passo transportados comparáveis em profundidade, ângulos de virada e resumos de deriva de subespaço que são invariantes às escolhas de base dentro da janela. Um validador GRU leve treinado nessas assinaturas realiza auto-verificação sem modificar o modelo base. Além da detecção, o validador localiza um evento de profundidade culpado e permite um refinamento direcionado: o modelo retrocede ao token culpado e corrige um passo transportado anormal no bloco identificado, preservando o residual ortogonal. O pipeline resultante fornece localização acionável e auto-verificação de baixa sobrecarga a partir da dinâmica interna de decisão. O código está disponível em github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Assinaturas de Fluxo Interno para Autoverificação e Refinamento em LLMs

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Resumo

Support