Flow-equivariante recurrente neurale netwerken
Flow Equivariant Recurrent Neural Networks
July 20, 2025
Auteurs: T. Anderson Keller
cs.AI
Samenvatting
Data komt bij onze zintuigen binnen als een continue stroom, die soepel transformeert van het ene moment naar het volgende. Deze soepele transformaties kunnen worden gezien als continue symmetrieën van de omgeving waarin we leven, die equivalentierelaties definiëren tussen stimuli over tijd. In machine learning worden neurale netwerkarchitecturen die symmetrieën van hun data respecteren, equivariant genoemd en hebben ze bewezen voordelen in termen van generalisatievermogen en steekproefficiëntie. Tot op heden is equivariantie echter alleen overwogen voor statische transformaties en feed-forward netwerken, wat de toepasbaarheid ervan beperkt tot sequentiemodellen, zoals recurrent neural networks (RNN's), en bijbehorende tijd-geparameteriseerde sequentietransformaties. In dit werk breiden we de equivariante netwerktheorie uit naar dit regime van 'flows' — één-parameter Lie-subgroepen die natuurlijke transformaties over tijd vastleggen, zoals visuele beweging. We beginnen door aan te tonen dat standaard RNN's over het algemeen niet flow-equivariant zijn: hun verborgen toestanden transformeren niet op een geometrisch gestructureerde manier voor bewegende stimuli. Vervolgens laten we zien hoe flow-equivariantie kan worden geïntroduceerd, en demonstreren we dat deze modellen hun niet-equivariante tegenhangers significant overtreffen in termen van trainingssnelheid, lengtegeneralisatie en snelheidsgeneralisatie, zowel bij voorspelling van de volgende stap als bij sequentieclassificatie. We presenteren dit werk als een eerste stap naar het bouwen van sequentiemodellen die de tijd-geparameteriseerde symmetrieën respecteren die de wereld om ons heen beheersen.
English
Data arrives at our senses as a continuous stream, smoothly transforming from
one instant to the next. These smooth transformations can be viewed as
continuous symmetries of the environment that we inhabit, defining equivalence
relations between stimuli over time. In machine learning, neural network
architectures that respect symmetries of their data are called equivariant and
have provable benefits in terms of generalization ability and sample
efficiency. To date, however, equivariance has been considered only for static
transformations and feed-forward networks, limiting its applicability to
sequence models, such as recurrent neural networks (RNNs), and corresponding
time-parameterized sequence transformations. In this work, we extend
equivariant network theory to this regime of `flows' -- one-parameter Lie
subgroups capturing natural transformations over time, such as visual motion.
We begin by showing that standard RNNs are generally not flow equivariant:
their hidden states fail to transform in a geometrically structured manner for
moving stimuli. We then show how flow equivariance can be introduced, and
demonstrate that these models significantly outperform their non-equivariant
counterparts in terms of training speed, length generalization, and velocity
generalization, on both next step prediction and sequence classification. We
present this work as a first step towards building sequence models that respect
the time-parameterized symmetries which govern the world around us.