Переосмысление отслеживания состояния в рекуррентных моделях через динамику контроля ошибок

Аннотация

Теория отслеживания состояний в рекуррентных архитектурах в основном сосредоточена на выразительной способности: может ли фиксированная архитектура теоретически реализовать набор символических правил перехода. Мы утверждаем, что не менее важным является контроль ошибок — динамика, управляющая дрейфом скрытых состояний вдоль направлений, различающих символические состояния. Мы доказываем, что аффинные рекуррентные сети — класс моделей, включающий модели пространства состояний и линейное внимание, — не могут исправлять ошибки вдоль подпространств, разделяющих состояния, если они сохраняют представления состояний. Следовательно, практические аффинные трекеры не обучаются надежному отслеживанию состояния; вместо этого они учат решения с конечным горизонтом, определяемые накопленной ошибкой, значимой для состояния. Мы характеризуем механику этого сбоя, показывая, что отслеживание остается читаемым только до тех пор, пока накапливаемый внутриклассовый разброс остается малым по сравнению с начальным межклассовым разделением. На групповых задачах отслеживания состояния мы эмпирически демонстрируем, что этот коллапс предсказуем: отслеживание разрушается, когда коэффициент различимости пересекает порог читаемости обученного декодера. Для обученных моделей точка этого пересечения предсказывает горизонт, на котором снижается точность последующих вычислений. Результаты устанавливают, что надежное отслеживание состояния определяется не только теоретической выразительностью архитектуры, но, что критически важно, ее контролем ошибок.

English

The theory of state tracking in recurrent architectures has predominantly focused on expressive capacity: whether a fixed architecture can theoretically realize a set of symbolic transition rules. We argue that equally important is error control, the dynamics governing hidden-state drift along the directions that distinguish symbolic states. We prove that affine recurrent networks, a class of models encompassing State-Space Models and Linear Attention, cannot correct errors along state-separating subspaces once they preserve state representations. Consequently, practical affine trackers do not learn robust state tracking; rather, they learn finite horizon solutions governed by accumulated state-relevant error. We characterize the mechanics of this failure, showing that tracking remains readable only while the accumulating within-class spread remains small relative to the initial between-class separation. We demonstrate empirically on group state-tracking tasks that this breakdown is predictable: tracking collapses when the distinguishability ratio crosses the readability threshold of the trained decoder. Across trained models, the point of this crossing predicts the horizon at which downstream accuracy fails. These results establish that robust state tracking is determined not only by an architecture's theoretical expressivity but crucially by its error control.

Переосмысление отслеживания состояния в рекуррентных моделях через динамику контроля ошибок

Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

Аннотация

Support