Потоково-эквивариантные мировые модели: память для частично наблюдаемых динамических сред
Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments
January 3, 2026
Авторы: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI
Аннотация
Воплощенные системы воспринимают мир как «симфонию потоков»: совокупность множества непрерывных потоков сенсорного ввода, связанных с самодвижением и переплетенных с динамикой внешних объектов. Эти потоки подчиняются гладким, параметризованным по времени симметриям, которые комбинируются посредством строго структурированной алгебры; однако большинство нейросетевых моделей мира игнорируют эту структуру и вместо этого многократно переобучаются одним и тем же преобразованиям на основе данных. В данной работе мы представляем «Эквивариантные к потокам модели мира» — фреймворк, в котором как самодвижение, так и движение внешних объектов унифицированы в виде однопараметрических «потоков» групп Ли. Мы используем эту унификацию для реализации эквивариантности групп относительно данных преобразований, обеспечивая тем самым стабильное латентное представление мира на сотнях временных шагов. На бенчмарках моделирования мира по частично наблюдаемым 2D- и 3D-видеопоследовательностям мы демонстрируем, что эквивариантные к потокам модели мира значительно превосходят сопоставимые передовые архитектуры мировых моделей на основе диффузии и с расширенной памятью — особенно в случаях, когда существуют предсказуемые динамики мира за пределами текущего поля зрения агента. Мы показываем, что эквивариантность к потокам особенно полезна для длинных разверток, обобщаясь далеко за пределы горизонта обучения. Структурируя представления моделей мира относительно внутреннего и внешнего движения, эквивариантность к потокам прокладывает масштабируемый путь к эффективному с точки зрения данных, управляемому симметриями, воплощенному интеллекту. Ссылка на проект: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.