Replanteamiento del Seguimiento de Estados en Modelos Recurrentes mediante Dinámicas de Control de Errores

Resumen

La teoría del seguimiento de estados en arquitecturas recurrentes se ha centrado predominantemente en la capacidad expresiva: si una arquitectura fija puede realizar teóricamente un conjunto de reglas de transición simbólicas. Argumentamos que igualmente importante es el control de errores, las dinámicas que gobiernan la deriva del estado oculto a lo largo de las direcciones que distinguen los estados simbólicos. Demostramos que las redes recurrentes afines, una clase de modelos que incluye los Modelos de Espacio de Estados y la Atención Lineal, no pueden corregir errores a lo largo de subespacios separadores de estados una vez que preservan representaciones de estado. En consecuencia, los rastreadores afines prácticos no aprenden un seguimiento robusto de estados; más bien, aprenden soluciones de horizonte finito gobernadas por el error acumulado relevante al estado. Caracterizamos la mecánica de este fallo, mostrando que el seguimiento sigue siendo legible solo mientras la dispersión acumulada dentro de la clase permanece pequeña en relación con la separación inicial entre clases. Demostramos empíricamente en tareas de seguimiento de estados grupales que este colapso es predecible: el seguimiento falla cuando la relación de distinguibilidad cruza el umbral de legibilidad del decodificador entrenado. En los modelos entrenados, este punto de cruce predice el horizonte en el que la precisión descendente falla. Estos resultados establecen que el seguimiento robusto de estados está determinado no solo por la expresividad teórica de una arquitectura, sino crucialmente por su control de errores.

English

The theory of state tracking in recurrent architectures has predominantly focused on expressive capacity: whether a fixed architecture can theoretically realize a set of symbolic transition rules. We argue that equally important is error control, the dynamics governing hidden-state drift along the directions that distinguish symbolic states. We prove that affine recurrent networks, a class of models encompassing State-Space Models and Linear Attention, cannot correct errors along state-separating subspaces once they preserve state representations. Consequently, practical affine trackers do not learn robust state tracking; rather, they learn finite horizon solutions governed by accumulated state-relevant error. We characterize the mechanics of this failure, showing that tracking remains readable only while the accumulating within-class spread remains small relative to the initial between-class separation. We demonstrate empirically on group state-tracking tasks that this breakdown is predictable: tracking collapses when the distinguishability ratio crosses the readability threshold of the trained decoder. Across trained models, the point of this crossing predicts the horizon at which downstream accuracy fails. These results establish that robust state tracking is determined not only by an architecture's theoretical expressivity but crucially by its error control.

Replanteamiento del Seguimiento de Estados en Modelos Recurrentes mediante Dinámicas de Control de Errores

Rethinking State Tracking in Recurrent Models Through Error Control Dynamics

Resumen

Support