Aether : Modélisation unifiée du monde avec prise en compte géométrique

papers.abstract

L'intégration de la reconstruction géométrique et de la modélisation générative reste un défi critique dans le développement de systèmes d'IA capables de raisonnement spatial semblable à celui des humains. Cet article propose Aether, un cadre unifié qui permet un raisonnement conscient de la géométrie dans les modèles du monde en optimisant conjointement trois capacités fondamentales : (1) la reconstruction dynamique 4D, (2) la prédiction vidéo conditionnée par l'action, et (3) la planification visuelle conditionnée par un objectif. Grâce à un apprentissage de caractéristiques entrelacées par tâches, Aether réalise un partage synergique des connaissances entre les objectifs de reconstruction, de prédiction et de planification. S'appuyant sur des modèles de génération vidéo, notre cadre démontre une généralisation sans précédent du synthétique au réel, bien qu'il n'ait jamais observé de données du monde réel pendant l'entraînement. De plus, notre approche atteint une généralisation zero-shot à la fois dans les tâches de suivi d'actions et de reconstruction, grâce à sa modélisation géométrique intrinsèque. Fait remarquable, même sans données du monde réel, ses performances en reconstruction surpassent largement celles des modèles spécifiques à un domaine. Par ailleurs, Aether exploite un espace d'action informé par la géométrie pour traduire de manière fluide les prédictions en actions, permettant une planification autonome efficace des trajectoires. Nous espérons que notre travail inspirera la communauté à explorer de nouvelles frontières dans la modélisation physiquement raisonnable du monde et ses applications.

English

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Aether : Modélisation unifiée du monde avec prise en compte géométrique

Aether: Geometric-Aware Unified World Modeling

papers.abstract

Support