Modelos de Mundo Equivariantes ao Fluxo: Memória para Ambientes Dinâmicos Parcialmente Observados

Resumo

Os sistemas corporificados experienciam o mundo como "uma sinfonia de fluxos": uma combinação de múltiplos fluxos contínuos de entrada sensorial acoplados ao auto movimento, entrelaçados com a dinâmica de objetos externos. Estes fluxos obedecem a simetrias suaves, parametrizadas no tempo, que se combinam através de uma álgebra precisamente estruturada; no entanto, a maioria dos modelos de mundo baseados em redes neurais ignora esta estrutura e, em vez disso, reaprende repetidamente as mesmas transformações a partir dos dados. Neste trabalho, introduzimos os 'Modelos de Mundo Equivariantes a Fluxos', uma estrutura na qual tanto o auto movimento quanto o movimento de objetos externos são unificados como 'fluxos' de grupos de Lie de um parâmetro. Aproveitamos esta unificação para implementar a equivariância de grupo em relação a estas transformações, fornecendo assim uma representação latente estável do mundo ao longo de centenas de passos de tempo. Tanto em benchmarks de modelagem de mundo em vídeo 2D como 3D com observação parcial, demonstramos que os Modelos de Mundo Equivariantes a Fluxos superam significativamente arquiteturas comparáveis de modelagem de mundo baseadas em difusão e aumentadas por memória do estado da arte – particularmente quando existem dinâmicas previsíveis do mundo fora do campo de visão atual do agente. Mostramos que a equivariância a fluxos é particularmente benéfica para rollouts longos, generalizando muito além do horizonte de treinamento. Ao estruturar as representações do modelo de mundo em relação ao movimento interno e externo, a equivariância a fluxos traça uma rota escalável para uma inteligência corporificada, guiada por simetrias e eficiente em dados. Link do projeto: https://flowequivariantworldmodels.github.io.

English

Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.