Aether: Modelado Unificado del Mundo con Conciencia Geométrica

Resumen

La integración de la reconstrucción geométrica y el modelado generativo sigue siendo un desafío crítico en el desarrollo de sistemas de IA capaces de razonamiento espacial similar al humano. Este artículo propone Aether, un marco unificado que permite el razonamiento consciente de la geometría en modelos del mundo mediante la optimización conjunta de tres capacidades principales: (1) reconstrucción dinámica 4D, (2) predicción de video condicionada por acciones y (3) planificación visual condicionada por objetivos. A través del aprendizaje de características intercaladas por tareas, Aether logra un intercambio sinérgico de conocimientos entre los objetivos de reconstrucción, predicción y planificación. Basándose en modelos de generación de video, nuestro marco demuestra una generalización sintético-real sin precedentes a pesar de no observar datos del mundo real durante el entrenamiento. Además, nuestro enfoque logra generalización de cero disparos tanto en tareas de seguimiento de acciones como en reconstrucción, gracias a su modelado geométrico intrínseco. Notablemente, incluso sin datos del mundo real, su rendimiento en reconstrucción supera ampliamente el de modelos específicos de dominio. Adicionalmente, Aether aprovecha un espacio de acciones informado por la geometría para traducir predicciones en acciones de manera fluida, permitiendo una planificación autónoma de trayectorias efectiva. Esperamos que nuestro trabajo inspire a la comunidad a explorar nuevas fronteras en el modelado del mundo físicamente razonable y sus aplicaciones.

English

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Aether: Modelado Unificado del Mundo con Conciencia Geométrica

Aether: Geometric-Aware Unified World Modeling

Resumen

Support