Modelli del Mondo Flow-Equivarianti: Memoria per Ambienti Dinamici Parzialmente Osservati
Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments
January 3, 2026
Autori: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI
Abstract
I sistemi incarnati sperimentano il mondo come "una sinfonia di flussi": una combinazione di molteplici flussi continui di input sensoriale accoppiati all'auto-movimento, intrecciati con la dinamica degli oggetti esterni. Questi flussi obbediscono a simmetrie lisce e parametrizzate nel tempo, che si combinano attraverso un'algebra dalla struttura precisa; eppure la maggior parte dei modelli del mondo basati su reti neurali ignora questa struttura e invece ri-apprende ripetutamente le stesse trasformazioni dai dati. In questo lavoro, introduciamo "Flow Equivariant World Models", un quadro in cui sia l'auto-movimento che il movimento degli oggetti esterni sono unificati come "flussi" di gruppi di Lie ad un parametro. Sfruttiamo questa unificazione per implementare l'equivarianza di gruppo rispetto a queste trasformazioni, fornendo così una rappresentazione latente stabile del mondo per centinaia di step temporali. Su benchmark di modellazione del mondo basati su video parzialmente osservati, sia in 2D che in 3D, dimostriamo che i Flow Equivariant World Models superano significamente le architetture all'avanguardia comparabili, basate su diffusione e aumentate con memoria -- in particolare quando sono presenti dinamiche del mondo prevedibili al di fuori del campo visivo corrente dell'agente. Mostriamo che l'equivarianza di flusso è particolarmente vantaggiosa per rollout lunghi, generalizzando ben oltre l'orizzonte di addestramento. Strutturando le rappresentazioni del modello del mondo rispetto al movimento interno ed esterno, l'equivarianza di fluszo traccia una rotta scalabile verso un'intelligenza incarnata, efficiente nei dati e guidata dalle simmetrie. Link al progetto: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.