Внутренние признаки потока для самопроверки и уточнения в больших языковых моделях

Аннотация

Крупные языковые модели способны генерировать беглые ответы, которые не соответствуют предоставленному контексту, в то время как многие механизмы защиты полагаются на внешнюю проверку или отдельную оценку после генерации. Мы представляем внутренние сигнатуры потока, которые аудируют формирование решений на основе поэтапной динамики на фиксированной межблочной границе мониторинга. Метод стабилизирует покомпонентное движение посредством мониторинга, центрированного на смещении, затем суммирует траектории в компактных движущихся подпространствах, согласованных со считыванием, которые построены из основного токена и его ближайших конкурентов в пределах каждого глубинного окна. Соседние оконные кадры выравниваются с помощью ортогонального переноса, что дает сопоставимые по глубине длины перенесенных шагов, углы поворота и суммарные характеристики дрейфа подпространства, инвариантные к выбору базиса внутри окна. Облегченный валидатор на основе GRU, обученный на этих сигнатурах, выполняет самопроверку без модификации базовой модели. Помимо обнаружения, валидатор локализует проблемное глубинное событие и позволяет выполнить целенаправленное уточнение: модель откатывается к проблемному токену и фиксирует аномальный перенесенный шаг на идентифицированном блоке, сохраняя ортогональный остаток. Получившийся конвейер обеспечивает действенную локализацию и самопроверку с низкими накладными расходами на основе внутренней динамики принятия решений. Код доступен по адресу github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

English

Large language models can generate fluent answers that are unfaithful to the provided context, while many safeguards rely on external verification or a separate judge after generation. We introduce internal flow signatures that audit decision formation from depthwise dynamics at a fixed inter-block monitoring boundary. The method stabilizes token-wise motion via bias-centered monitoring, then summarizes trajectories in compact moving readout-aligned subspaces constructed from the top token and its close competitors within each depth window. Neighboring window frames are aligned by an orthogonal transport, yielding depth-comparable transported step lengths, turning angles, and subspace drift summaries that are invariant to within-window basis choices. A lightweight GRU validator trained on these signatures performs self-checking without modifying the base model. Beyond detection, the validator localizes a culprit depth event and enables a targeted refinement: the model rolls back to the culprit token and clamps an abnormal transported step at the identified block while preserving the orthogonal residual. The resulting pipeline provides actionable localization and low-overhead self-checking from internal decision dynamics. Code is available at github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.

Внутренние признаки потока для самопроверки и уточнения в больших языковых моделях

Internal Flow Signatures for Self-Checking and Refinement in LLMs

Аннотация

Support