Aether: Geometrisch Bewust Verenigd Wereldmodel

Samenvatting

De integratie van geometrische reconstructie en generatieve modellering blijft een cruciale uitdaging bij het ontwikkelen van AI-systemen die mensachtig ruimtelijk redeneren mogelijk maken. Dit artikel introduceert Aether, een geïntegreerd raamwerk dat geometriebewust redeneren in wereldmodellen mogelijk maakt door het gezamenlijk optimaliseren van drie kerncapaciteiten: (1) 4D-dynamische reconstructie, (2) actie-geconditioneerde videovoorspelling, en (3) doel-geconditioneerde visuele planning. Door taakverweven kenmerkenleren bereikt Aether synergetische kennisuitwisseling tussen reconstructie-, voorspellings- en planningsdoelen. Gebaseerd op videogeneratiemodellen toont ons raamwerk een ongekende generalisatie van synthetisch naar echt, ondanks dat het nooit real-world data heeft gezien tijdens de training. Bovendien bereikt onze aanpak zero-shot generalisatie in zowel actievolgtaken als reconstructietaken, dankzij de intrinsieke geometrische modellering. Opmerkelijk is dat de reconstructieprestaties, zelfs zonder real-world data, die van domeinspecifieke modellen ver overtreffen. Daarnaast maakt Aether gebruik van een geometrie-geïnformeerde actieruimte om voorspellingen naadloos om te zetten in acties, waardoor effectieve autonome trajectplanning mogelijk wordt. We hopen dat ons werk de gemeenschap inspireert om nieuwe grenzen te verkennen in fysiek redelijke wereldmodellering en de toepassingen daarvan.

English

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Aether: Geometrisch Bewust Verenigd Wereldmodel

Aether: Geometric-Aware Unified World Modeling

Samenvatting

Support