Neubetrachtung der Zustandsverfolgung in rekurrenten Modellen durch Fehlerkontroll-Dynamik

Zusammenfassung

Die Theorie der Zustandsverfolgung in rekurrenten Architekturen hat sich überwiegend auf die expressive Kapazität konzentriert: ob eine feste Architektur theoretisch eine Menge symbolischer Übergangsregeln realisieren kann. Wir argumentieren, dass die Fehlerkontrolle – die Dynamik, die die Drift der versteckten Zustände entlang der Richtungen steuert, die symbolische Zustände unterscheiden – ebenso wichtig ist. Wir beweisen, dass affine rekurrente Netze, eine Modellklasse, die Zustandsraummodelle und lineare Aufmerksamkeit umfasst, Fehler entlang zustandstrennender Unterräume nicht korrigieren können, sobald sie Zustandsrepräsentationen bewahren. Folglich erlernen praktische affine Tracker keine robuste Zustandsverfolgung; vielmehr lernen sie Lösungen mit endlichem Horizont, die durch akkumulierten zustandsrelevanten Fehler bestimmt werden. Wir charakterisieren die Mechanik dieses Versagens und zeigen, dass die Verfolgung nur dann lesbar bleibt, solange die akkumulierende Streuung innerhalb der Klasse klein im Verhältnis zur anfänglichen Trennung zwischen den Klassen ist. Wir demonstrieren empirisch an gruppenbasierten Zustandsverfolgungsaufgaben, dass dieser Zusammenbruch vorhersagbar ist: Die Verfolgung bricht zusammen, wenn das Unterscheidbarkeitsverhältnis die Lesbarkeitsschwelle des trainierten Dekoders überschreitet. Bei trainierten Modellen sagt der Punkt dieser Überschreitung den Horizont voraus, bei dem die nachgelagerte Genauigkeit versagt. Diese Ergebnisse zeigen, dass die robuste Zustandsverfolgung nicht nur durch die theoretische Ausdruckskraft einer Architektur bestimmt wird, sondern entscheidend von ihrer Fehlerkontrolle abhängt.

English

The theory of state tracking in recurrent architectures has predominantly focused on expressive capacity: whether a fixed architecture can theoretically realize a set of symbolic transition rules. We argue that equally important is error control, the dynamics governing hidden-state drift along the directions that distinguish symbolic states. We prove that affine recurrent networks, a class of models encompassing State-Space Models and Linear Attention, cannot correct errors along state-separating subspaces once they preserve state representations. Consequently, practical affine trackers do not learn robust state tracking; rather, they learn finite horizon solutions governed by accumulated state-relevant error. We characterize the mechanics of this failure, showing that tracking remains readable only while the accumulating within-class spread remains small relative to the initial between-class separation. We demonstrate empirically on group state-tracking tasks that this breakdown is predictable: tracking collapses when the distinguishability ratio crosses the readability threshold of the trained decoder. Across trained models, the point of this crossing predicts the horizon at which downstream accuracy fails. These results establish that robust state tracking is determined not only by an architecture's theoretical expressivity but crucially by its error control.

Neubetrachtung der Zustandsverfolgung in rekurrenten Modellen durch Fehlerkontroll-Dynamik

Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

Zusammenfassung

Support