ChatPaper.aiChatPaper

Flussäquivariante Weltmodelle: Gedächtnis für teilweise beobachtete dynamische Umgebungen

Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments

January 3, 2026
papers.authors: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI

papers.abstract

Verkörperte Systeme erleben die Welt als "eine Symphonie von Strömungen": eine Kombination aus vielen kontinuierlichen Strömen sensorischer Eingaben, gekoppelt mit Eigenbewegung, verwoben mit der Dynamik externer Objekte. Diese Ströme gehorchen glatten, zeitparametrisierten Symmetrien, die sich durch eine präzise strukturierte Algebra kombinieren; dennoch ignorieren die meisten neuronalen Netzwerk-Weltmodelle diese Struktur und lernen dieselben Transformationen stattdessen wiederholt aus Daten neu. In dieser Arbeit führen wir "Fluss-Äquivariante Weltmodelle" ein, einen Rahmen, in dem sowohl Eigenbewegung als auch die Bewegung externer Objekte als einparametrige Lie-Gruppen-"Flüsse" vereinheitlicht werden. Wir nutzen diese Vereinheitlichung, um Gruppenäquivarianz in Bezug auf diese Transformationen zu implementieren und dadurch eine stabile latente Weltrepräsentation über hunderte von Zeitschritten hinweg bereitzustellen. Auf sowohl 2D- als auch 3D-Weltmodellierungs-Benchmarks mit teilweise beobachteten Videos demonstrieren wir, dass Fluss-Äquivariante Weltmodelle vergleichbare state-of-the-art, diffusionsbasierte und speichererweiterte Weltmodellierungsarchitekturen signifikant übertreffen – insbesondere wenn vorhersehbare Weltdynamiken außerhalb des aktuellen Sichtfelds des Agenten existieren. Wir zeigen, dass Fluss-Äquivarianz besonders vorteilhaft für lange Rollouts ist und weit über den Trainingshorizont hinaus generalisiert. Indem Weltmodellrepräsentationen in Bezug auf interne und externe Bewegung strukturiert werden, weist Fluss-Äquivarianz einen skalierbaren Weg zu dateneffizienter, symmetriegeführter, verkörperter Intelligenz. Projektlink: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.
PDF31January 16, 2026