Aether : Modélisation unifiée du monde avec prise en compte géométrique
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Auteurs: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Résumé
L'intégration de la reconstruction géométrique et de la modélisation générative reste un défi critique dans le développement de systèmes d'IA capables de raisonnement spatial semblable à celui des humains. Cet article propose Aether, un cadre unifié qui permet un raisonnement conscient de la géométrie dans les modèles du monde en optimisant conjointement trois capacités fondamentales : (1) la reconstruction dynamique 4D, (2) la prédiction vidéo conditionnée par l'action, et (3) la planification visuelle conditionnée par un objectif. Grâce à un apprentissage de caractéristiques entrelacées par tâches, Aether réalise un partage synergique des connaissances entre les objectifs de reconstruction, de prédiction et de planification. S'appuyant sur des modèles de génération vidéo, notre cadre démontre une généralisation sans précédent du synthétique au réel, bien qu'il n'ait jamais observé de données du monde réel pendant l'entraînement. De plus, notre approche atteint une généralisation zero-shot à la fois dans les tâches de suivi d'actions et de reconstruction, grâce à sa modélisation géométrique intrinsèque. Fait remarquable, même sans données du monde réel, ses performances en reconstruction surpassent largement celles des modèles spécifiques à un domaine. Par ailleurs, Aether exploite un espace d'action informé par la géométrie pour traduire de manière fluide les prédictions en actions, permettant une planification autonome efficace des trajectoires. Nous espérons que notre travail inspirera la communauté à explorer de nouvelles frontières dans la modélisation physiquement raisonnable du monde et ses applications.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary