ChatPaper.aiChatPaper

フロー同変リカレントニューラルネットワーク

Flow Equivariant Recurrent Neural Networks

July 20, 2025
著者: T. Anderson Keller
cs.AI

要旨

データは連続的なストリームとして私たちの感覚に届き、瞬間から瞬間へと滑らかに変化していきます。これらの滑らかな変化は、私たちが住む環境の連続的な対称性と見なすことができ、時間経過に伴う刺激間の同値関係を定義します。機械学習において、データの対称性を尊重するニューラルネットワークアーキテクチャは等変性(equivariant)と呼ばれ、汎化能力とサンプル効率の面で証明可能な利点を持っています。しかし、これまで等変性は静的な変換とフィードフォワードネットワークにのみ考慮されており、リカレントニューラルネットワーク(RNNs)などのシーケンスモデルや、それに対応する時間パラメータ化されたシーケンス変換への適用が制限されていました。本研究では、等変性ネットワーク理論を「フロー」の領域に拡張します。フローとは、視覚的な動きなどの時間経過に伴う自然な変換を捉える1パラメータのリー部分群です。まず、標準的なRNNは一般的にフロー等変性を持たないことを示します。つまり、移動する刺激に対して隠れ状態が幾何学的に構造化された方法で変換されないことを示します。次に、フロー等変性を導入する方法を示し、これらのモデルが非等変性のモデルよりも訓練速度、長さの汎化、速度の汎化の点で大幅に優れていることを、次のステップ予測とシーケンス分類の両方で実証します。本研究は、私たちの周りの世界を支配する時間パラメータ化された対称性を尊重するシーケンスモデルを構築するための第一歩として提示します。
English
Data arrives at our senses as a continuous stream, smoothly transforming from one instant to the next. These smooth transformations can be viewed as continuous symmetries of the environment that we inhabit, defining equivalence relations between stimuli over time. In machine learning, neural network architectures that respect symmetries of their data are called equivariant and have provable benefits in terms of generalization ability and sample efficiency. To date, however, equivariance has been considered only for static transformations and feed-forward networks, limiting its applicability to sequence models, such as recurrent neural networks (RNNs), and corresponding time-parameterized sequence transformations. In this work, we extend equivariant network theory to this regime of `flows' -- one-parameter Lie subgroups capturing natural transformations over time, such as visual motion. We begin by showing that standard RNNs are generally not flow equivariant: their hidden states fail to transform in a geometrically structured manner for moving stimuli. We then show how flow equivariance can be introduced, and demonstrate that these models significantly outperform their non-equivariant counterparts in terms of training speed, length generalization, and velocity generalization, on both next step prediction and sequence classification. We present this work as a first step towards building sequence models that respect the time-parameterized symmetries which govern the world around us.
PDF21August 1, 2025