ChatPaper.aiChatPaper

Modelos Mundiales Equivariantes al Flujo: Memoria para Entornos Dinámicos Parcialmente Observados

Flow Equivariant World Models: Memory for Partially Observed Dynamic Environments

January 3, 2026
Autores: Hansen Jin Lillemark, Benhao Huang, Fangneng Zhan, Yilun Du, Thomas Anderson Keller
cs.AI

Resumen

Los sistemas corporizados experimentan el mundo como "una sinfonía de flujos": una combinación de múltiples corrientes continuas de entrada sensorial acopladas al auto-movimiento, entrelazadas con la dinámica de objetos externos. Estas corrientes obedecen simetrías suaves parametrizadas en el tiempo, que se combinan mediante un álgebra de estructura precisa; sin embargo, la mayoría de los modelos del mundo basados en redes neuronales ignoran esta estructura y, en cambio, reaprenden repetidamente las mismas transformaciones a partir de datos. En este trabajo, presentamos "Modelos del Mundo Equivariantes al Flujo", un marco en el que tanto el auto-movimiento como el movimiento de objetos externos se unifican como 'flujos' de grupos de Lie de un parámetro. Aprovechamos esta unificación para implementar la equivariancia de grupo con respecto a estas transformaciones, proporcionando así una representación latente estable del mundo a lo largo de cientos de pasos temporales. Tanto en benchmarks de modelado del mundo en video 2D como 3D con observación parcial, demostramos que los Modelos del Mundo Equivariantes al Flujo superan significativamente a arquitecturas de modelado del mundo comparables, basadas en difusión y aumentadas con memoria, del estado del arte — particularmente cuando existen dinámicas mundiales predecibles fuera del campo de visión actual del agente. Mostramos que la equivariancia al flujo es especialmente beneficiosa para rollouts largos, generalizando mucho más allá del horizonte de entrenamiento. Al estructurar las representaciones del modelo del mundo con respecto al movimiento interno y externo, la equivariancia al flujo traza una ruta escalable hacia una inteligencia corporizada, guiada por simetrías y eficiente en datos. Enlace al proyecto: https://flowequivariantworldmodels.github.io.
English
Embodied systems experience the world as 'a symphony of flows': a combination of many continuous streams of sensory input coupled to self-motion, interwoven with the dynamics of external objects. These streams obey smooth, time-parameterized symmetries, which combine through a precisely structured algebra; yet most neural network world models ignore this structure and instead repeatedly re-learn the same transformations from data. In this work, we introduce 'Flow Equivariant World Models', a framework in which both self-motion and external object motion are unified as one-parameter Lie group 'flows'. We leverage this unification to implement group equivariance with respect to these transformations, thereby providing a stable latent world representation over hundreds of timesteps. On both 2D and 3D partially observed video world modeling benchmarks, we demonstrate that Flow Equivariant World Models significantly outperform comparable state-of-the-art diffusion-based and memory-augmented world modeling architectures -- particularly when there are predictable world dynamics outside the agent's current field of view. We show that flow equivariance is particularly beneficial for long rollouts, generalizing far beyond the training horizon. By structuring world model representations with respect to internal and external motion, flow equivariance charts a scalable route to data efficient, symmetry-guided, embodied intelligence. Project link: https://flowequivariantworldmodels.github.io.
PDF31January 16, 2026