ChatPaper.aiChatPaper

흐름 등변 세계 모델: 부분 관측 동적 환경을 위한 메모리

Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments

January 3, 2026
저자: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI

초록

구현된 시스템은 '흐름의 교향곡'으로 세계를 경험합니다. 이는 자체 운동과 결합된 다중의 연속적인 감각 입력 스트림이 외부 객체의 역학과 얽힌 조합입니다. 이러한 스트림은 매끄럽고 시간 매개변수화된 대칭성을 따르며, 정밀하게 구조화된 대수(代數)를 통해 결합됩니다. 그러나 대부분의 신경망 세계 모델은 이 구조를 무시하고 데이터로부터 동일한 변환을 반복적으로 재학습합니다. 본 연구에서는 자체 운동과 외부 객체 운동이 모두 1-매개변수 리 군(Lie group) '흐름'으로 통일된 '흐름 등변 세계 모델(Flow Equivariant World Models)' 프레임워크를 소개합니다. 우리는 이러한 통일을 활용하여 해당 변환에 대한 군 등변성(group equivariance)을 구현함으로써 수백 타임스텝에 걸쳐 안정적인 잠재 세계 표현을 제공합니다. 2D 및 3D 부분 관측 비디오 세계 모델링 벤치마크에서, 흐름 등변 세계 모델이 유사한 최첨단 확산 기반(diffusion-based) 및 메모리 강화(memory-augmented) 세계 모델링 아키텍처를 크게 능가함을 입증합니다. 특히 에이전트의 현재 시야 밖에서 예측 가능한 세계 역학이 존재할 때 그 성능이 두드러집니다. 우리는 흐름 등변성이 롤아웃(rollout)이 길어질수록 특히 유리하며, 훈련 범위를 훨씬 넘어 일반화됨을 보여줍니다. 내부 및 외부 운동에 대한 세계 모델 표현을 구조화함으로써, 흐름 등변성은 데이터 효율적이고 대칭성에 기반한 구현형 지능으로 가는 확장 가능한 경로를 제시합니다. 프로젝트 링크: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.
PDF31January 16, 2026