フロー同変世界モデル:部分観測動的環境のためのメモリ
Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments
January 3, 2026
著者: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI
要旨
具現化されたシステムは、世界を「流れの交響曲」として経験する。すなわち、自己運動と結合した多数の連続的な感覚入力ストリームが、外部オブジェクトのダイナミクスと織りなす経験である。これらのストリームは、滑らかで時間をパラメータとする対称性に従い、精密に構造化された代数を通じて結合する。しかし、ほとんどのニューラルネットワーク世界モデルはこの構造を無視し、代わりに同じ変換をデータから繰り返し再学習する。本研究では、自己運動と外部オブジェクトの運動を1パラメータLie群の「流れ」として統一する「Flow Equivariant World Models」を提案する。この統一を活用して、これらの変換に関する群等変性を実装し、数百タイムステップにわたる安定した潜在世界表現を提供する。2Dおよび3Dの部分観測ビデオ世界モデリングベンチマークにおいて、Flow Equivariant World Modelsが、同等の最先端の拡散ベースおよびメモリ拡張型世界モデリングアーキテクチャを大幅に上回る性能を示すことを実証する——特に、エージェントの現在の視野外にある予測可能な世界ダイナミクスが存在する場合に顕著である。流れの等変性が、学習範囲をはるかに超えて一般化する長いロールアウトにおいて特に有益であることを示す。内部および外部の運動に関して世界モデル表現を構造化することにより、流れの等変性は、データ効率的で対称性に導かれた具身化インテリジェンスへのスケーラブルな道筋を示す。プロジェクトリンク: https://flowequivariantworldmodels.github.io。
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.