Aether: Modelado Unificado del Mundo con Conciencia Geométrica
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Autores: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Resumen
La integración de la reconstrucción geométrica y el modelado generativo sigue siendo un desafío crítico en el desarrollo de sistemas de IA capaces de razonamiento espacial similar al humano. Este artículo propone Aether, un marco unificado que permite el razonamiento consciente de la geometría en modelos del mundo mediante la optimización conjunta de tres capacidades principales: (1) reconstrucción dinámica 4D, (2) predicción de video condicionada por acciones y (3) planificación visual condicionada por objetivos. A través del aprendizaje de características intercaladas por tareas, Aether logra un intercambio sinérgico de conocimientos entre los objetivos de reconstrucción, predicción y planificación. Basándose en modelos de generación de video, nuestro marco demuestra una generalización sintético-real sin precedentes a pesar de no observar datos del mundo real durante el entrenamiento. Además, nuestro enfoque logra generalización de cero disparos tanto en tareas de seguimiento de acciones como en reconstrucción, gracias a su modelado geométrico intrínseco. Notablemente, incluso sin datos del mundo real, su rendimiento en reconstrucción supera ampliamente el de modelos específicos de dominio. Adicionalmente, Aether aprovecha un espacio de acciones informado por la geometría para traducir predicciones en acciones de manera fluida, permitiendo una planificación autónoma de trayectorias efectiva. Esperamos que nuestro trabajo inspire a la comunidad a explorar nuevas fronteras en el modelado del mundo físicamente razonable y sus aplicaciones.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary