Aether: Geometrisch Bewust Verenigd Wereldmodel
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Auteurs: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Samenvatting
De integratie van geometrische reconstructie en generatieve modellering blijft een cruciale uitdaging bij het ontwikkelen van AI-systemen die mensachtig ruimtelijk redeneren mogelijk maken. Dit artikel introduceert Aether, een geïntegreerd raamwerk dat geometriebewust redeneren in wereldmodellen mogelijk maakt door het gezamenlijk optimaliseren van drie kerncapaciteiten: (1) 4D-dynamische reconstructie, (2) actie-geconditioneerde videovoorspelling, en (3) doel-geconditioneerde visuele planning. Door taakverweven kenmerkenleren bereikt Aether synergetische kennisuitwisseling tussen reconstructie-, voorspellings- en planningsdoelen. Gebaseerd op videogeneratiemodellen toont ons raamwerk een ongekende generalisatie van synthetisch naar echt, ondanks dat het nooit real-world data heeft gezien tijdens de training. Bovendien bereikt onze aanpak zero-shot generalisatie in zowel actievolgtaken als reconstructietaken, dankzij de intrinsieke geometrische modellering. Opmerkelijk is dat de reconstructieprestaties, zelfs zonder real-world data, die van domeinspecifieke modellen ver overtreffen. Daarnaast maakt Aether gebruik van een geometrie-geïnformeerde actieruimte om voorspellingen naadloos om te zetten in acties, waardoor effectieve autonome trajectplanning mogelijk wordt. We hopen dat ons werk de gemeenschap inspireert om nieuwe grenzen te verkennen in fysiek redelijke wereldmodellering en de toepassingen daarvan.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary