Repenser le suivi d'état dans les modèles récurrents à travers les dynamiques de contrôle d'erreur

Résumé

La théorie du suivi d'état dans les architectures récurrentes s'est principalement concentrée sur la capacité expressive : la question de savoir si une architecture fixe peut réaliser théoriquement un ensemble de règles de transition symboliques. Nous soutenons que le contrôle d'erreur, c'est-à-dire la dynamique régissant la dérive de l'état caché le long des directions qui distinguent les états symboliques, est tout aussi important. Nous prouvons que les réseaux récurrents affines, une classe de modèles incluant les modèles espace-état et l'attention linéaire, ne peuvent pas corriger les erreurs le long des sous-espaces séparant les états lorsqu'ils préservent les représentations d'état. Par conséquent, les suiveurs affines pratiques n'apprennent pas un suivi d'état robuste ; ils apprennent plutôt des solutions à horizon fini gouvernées par l'erreur accumulée pertinente pour l'état. Nous caractérisons la mécanique de cet échec, montrant que le suivi reste lisible uniquement tant que la dispersion intra-classe accumulée reste faible par rapport à la séparation inter-classe initiale. Nous démontrons empiriquement, sur des tâches de suivi d'état en groupe, que cette défaillance est prévisible : le suivi s'effondre lorsque le ratio de distinctivité franchit le seuil de lisibilité du décodeur entraîné. À travers les modèles entraînés, le point de ce franchissement prédit l'horizon auquel la précision aval échoue. Ces résultats établissent que le suivi d'état robuste n'est pas déterminé uniquement par l'expressivité théorique d'une architecture, mais crucialement par son contrôle d'erreur.

English

The theory of state tracking in recurrent architectures has predominantly focused on expressive capacity: whether a fixed architecture can theoretically realize a set of symbolic transition rules. We argue that equally important is error control, the dynamics governing hidden-state drift along the directions that distinguish symbolic states. We prove that affine recurrent networks, a class of models encompassing State-Space Models and Linear Attention, cannot correct errors along state-separating subspaces once they preserve state representations. Consequently, practical affine trackers do not learn robust state tracking; rather, they learn finite horizon solutions governed by accumulated state-relevant error. We characterize the mechanics of this failure, showing that tracking remains readable only while the accumulating within-class spread remains small relative to the initial between-class separation. We demonstrate empirically on group state-tracking tasks that this breakdown is predictable: tracking collapses when the distinguishability ratio crosses the readability threshold of the trained decoder. Across trained models, the point of this crossing predicts the horizon at which downstream accuracy fails. These results establish that robust state tracking is determined not only by an architecture's theoretical expressivity but crucially by its error control.

Repenser le suivi d'état dans les modèles récurrents à travers les dynamiques de contrôle d'erreur

Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

Résumé

Support