플로우 등변 순환 신경망
Flow Equivariant Recurrent Neural Networks
July 20, 2025
저자: T. Anderson Keller
cs.AI
초록
데이터는 우리의 감각에 연속적인 흐름으로 도달하며, 한 순간에서 다음 순간으로 부드럽게 변환됩니다. 이러한 부드러운 변환은 우리가 거주하는 환경의 연속적인 대칭성으로 볼 수 있으며, 시간에 따른 자극 간의 동등 관계를 정의합니다. 기계 학습에서 데이터의 대칭성을 존중하는 신경망 아키텍처는 등변성(equivariant)이라고 불리며, 일반화 능력과 샘플 효율성 측면에서 입증된 이점을 가지고 있습니다. 그러나 지금까지 등변성은 정적 변환과 피드포워드 네트워크에만 고려되었으며, 이는 순환 신경망(RNNs)과 같은 시퀀스 모델 및 해당 시간 매개변수화된 시퀀스 변환에 대한 적용 가능성을 제한했습니다. 본 연구에서는 '흐름(flows)'이라는 영역으로 등변성 네트워크 이론을 확장합니다. 이는 시각적 운동과 같은 시간에 따른 자연스러운 변환을 포착하는 일-매개변수 리 부분군입니다. 우리는 먼저 표준 RNN이 일반적으로 흐름 등변성을 갖지 않음을 보여줍니다: 움직이는 자극에 대해 숨겨진 상태가 기하학적으로 구조화된 방식으로 변환되지 않습니다. 그런 다음 흐름 등변성을 도입하는 방법을 보여주고, 이러한 모델이 다음 단계 예측 및 시퀀스 분류에서 비등변성 모델보다 훈련 속도, 길이 일반화 및 속도 일반화 측면에서 크게 우수함을 입증합니다. 우리는 이 연구를 우리 주변 세계를 지배하는 시간 매개변수화된 대칭성을 존중하는 시퀀스 모델을 구축하기 위한 첫 걸음으로 제시합니다.
English
Data arrives at our senses as a continuous stream, smoothly transforming from
one instant to the next. These smooth transformations can be viewed as
continuous symmetries of the environment that we inhabit, defining equivalence
relations between stimuli over time. In machine learning, neural network
architectures that respect symmetries of their data are called equivariant and
have provable benefits in terms of generalization ability and sample
efficiency. To date, however, equivariance has been considered only for static
transformations and feed-forward networks, limiting its applicability to
sequence models, such as recurrent neural networks (RNNs), and corresponding
time-parameterized sequence transformations. In this work, we extend
equivariant network theory to this regime of `flows' -- one-parameter Lie
subgroups capturing natural transformations over time, such as visual motion.
We begin by showing that standard RNNs are generally not flow equivariant:
their hidden states fail to transform in a geometrically structured manner for
moving stimuli. We then show how flow equivariance can be introduced, and
demonstrate that these models significantly outperform their non-equivariant
counterparts in terms of training speed, length generalization, and velocity
generalization, on both next step prediction and sequence classification. We
present this work as a first step towards building sequence models that respect
the time-parameterized symmetries which govern the world around us.