ChatPaper.aiChatPaper

Flow Equivariante Wereldmodellen: Geheugen voor Gedeeltelijk Waargenomen Dynamische Omgevingen

Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments

January 3, 2026
Auteurs: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI

Samenvatting

Belichaamde systemen ervaren de wereld als 'een symfonie van stromen': een combinatie van vele continue stromen van zintuiglijke input gekoppeld aan eigenbeweging, verweven met de dynamiek van externe objecten. Deze stromen volgen vloeiende, tijd-geparameteriseerde symmetrieën, die zich combineren via een precies gestructureerde algebra; toch negeren de meeste wereldmodellen van neurale netwerken deze structuur en leren ze dezelfde transformaties steeds opnieuw uit data. In dit werk introduceren we 'Flow Equivariant World Models', een raamwerk waarin zowel eigenbeweging als beweging van externe objecten worden verenigd als één-parameter Lie-groep 'stromen'. We benutten deze unificatie om grootequivariantie ten opzichte van deze transformaties te implementeren, waardoor een stabiele latente wereldrepresentatie over honderden tijdstappen wordt geboden. Op zowel 2D- als 3D-partieel geobserveerde videobenchmarks voor wereldmodellering tonen we aan dat Flow Equivariant World Models aanzienlijk beter presteren dan vergelijkbare state-of-the-art, op diffusie gebaseerde en met geheugen versterkte wereldmodelleringsarchitecturen – vooral wanneer er voorspelbare werelddynamiek is buiten het huidige gezichtsveld van de agent. We laten zien dat stroom-equivariantie bijzonder gunstig is voor lange rollouts, die ver generaliseren voorbij de trainingshorizon. Door wereldmodelrepresentaties te structureren met betrekking tot interne en externe beweging, biedt stroom-equivariantie een schaalbare route naar data-efficiënte, symmetrie-gestuurde, belichaamde intelligentie. Projectlink: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.
PDF31January 16, 2026