ChatPaper.aiChatPaper

Flussäquivariante Rekurrente Neuronale Netze

Flow Equivariant Recurrent Neural Networks

July 20, 2025
papers.authors: T. Anderson Keller
cs.AI

papers.abstract

Daten erreichen unsere Sinne als kontinuierlicher Strom, der sich nahtlos von einem Moment zum nächsten verwandelt. Diese sanften Transformationen können als kontinuierliche Symmetrien der Umgebung, die wir bewohnen, betrachtet werden und definieren Äquivalenzrelationen zwischen Reizen über die Zeit hinweg. Im Bereich des maschinellen Lernens werden neuronale Netzwerkarchitekturen, die die Symmetrien ihrer Daten respektieren, als äquivariant bezeichnet und haben nachweisbare Vorteile in Bezug auf Generalisierungsfähigkeit und Stichprobeneffizienz. Bisher wurde Äquivarianz jedoch nur für statische Transformationen und Feedforward-Netzwerke betrachtet, was ihre Anwendbarkeit auf Sequenzmodelle wie rekurrente neuronale Netze (RNNs) und entsprechende zeitparametrisierte Sequenztransformationen einschränkt. In dieser Arbeit erweitern wir die Theorie äquivarianter Netzwerke auf diesen Bereich von „Flüssen“ – einparametrige Lie-Untergruppen, die natürliche Transformationen über die Zeit erfassen, wie beispielsweise visuelle Bewegung. Wir beginnen damit zu zeigen, dass Standard-RNNs im Allgemeinen nicht flussäquivariant sind: Ihre verborgenen Zustände transformieren sich nicht in einer geometrisch strukturierten Weise für sich bewegende Reize. Anschließend zeigen wir, wie Flussäquivarianz eingeführt werden kann, und demonstrieren, dass diese Modelle ihre nicht-äquivarianten Gegenstücke in Bezug auf Trainingsgeschwindigkeit, Längengeneralisierung und Geschwindigkeitsgeneralisierung sowohl bei der Vorhersage des nächsten Schritts als auch bei der Sequenzklassifikation deutlich übertreffen. Wir präsentieren diese Arbeit als ersten Schritt hin zum Aufbau von Sequenzmodellen, die die zeitparametrisierten Symmetrien respektieren, die die Welt um uns herum bestimmen.
English
Data arrives at our senses as a continuous stream, smoothly transforming from one instant to the next. These smooth transformations can be viewed as continuous symmetries of the environment that we inhabit, defining equivalence relations between stimuli over time. In machine learning, neural network architectures that respect symmetries of their data are called equivariant and have provable benefits in terms of generalization ability and sample efficiency. To date, however, equivariance has been considered only for static transformations and feed-forward networks, limiting its applicability to sequence models, such as recurrent neural networks (RNNs), and corresponding time-parameterized sequence transformations. In this work, we extend equivariant network theory to this regime of `flows' -- one-parameter Lie subgroups capturing natural transformations over time, such as visual motion. We begin by showing that standard RNNs are generally not flow equivariant: their hidden states fail to transform in a geometrically structured manner for moving stimuli. We then show how flow equivariance can be introduced, and demonstrate that these models significantly outperform their non-equivariant counterparts in terms of training speed, length generalization, and velocity generalization, on both next step prediction and sequence classification. We present this work as a first step towards building sequence models that respect the time-parameterized symmetries which govern the world around us.
PDF21August 1, 2025