Modèles du monde équivariants par flots : Mémoire pour les environnements dynamiques partiellement observés
Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments
January 3, 2026
papers.authors: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI
papers.abstract
Les systèmes incarnés perçoivent le monde comme « une symphonie de flux » : une combinaison de multiples flux continus d'entrées sensorielles couplées au mouvement propre, entrelacés avec la dynamique des objets externes. Ces flux obéissent à des symétries lisses paramétrées dans le temps, qui se combinent via une algèbre structurellement précise ; pourtant, la plupart des modèles du monde par réseaux neuronaux ignorent cette structure et réapprennent répétitivement les mêmes transformations à partir des données. Dans ce travail, nous introduisons les « Modèles du Monde à Équivariance de Flux », un cadre dans lequel le mouvement propre et le mouvement des objets externes sont unifiés en tant que « flux » de groupes de Lie à un paramètre. Nous exploitons cette unification pour implémenter l'équivariance de groupe par rapport à ces transformations, fournissant ainsi une représentation latente stable du monde sur des centaines de pas de temps. Sur des benchmarks de modélisation du monde en vidéo partiellement observée en 2D et 3D, nous démontrons que les Modèles du Monde à Équivariance de Flux surpassent significativement les architectures de modélisation du monde comparables, basées sur la diffusion et augmentées par mémoire – particulièrement lorsque des dynamiques mondiales prévisibles existent en dehors du champ de vision actuel de l'agent. Nous montrons que l'équivariance de flux est particulièrement bénéfique pour les déploiements longs, généralisant bien au-delà de l'horizon d'entraînement. En structurant les représentations du modèle du monde par rapport au mouvement interne et externe, l'équivariance de flux trace une voie évolutive vers une intelligence incarnée, efficace en données et guidée par les symétries. Lien du projet : https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.