Aether: Modellizzazione Unificata del Mondo con Consapevolezza Geometrica
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Autori: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Abstract
L'integrazione tra ricostruzione geometrica e modellazione generativa rimane una sfida cruciale nello sviluppo di sistemi di intelligenza artificiale capaci di ragionamento spaziale simile a quello umano. Questo articolo propone Aether, un framework unificato che abilita il ragionamento consapevole della geometria nei modelli del mondo ottimizzando congiuntamente tre capacità fondamentali: (1) ricostruzione dinamica 4D, (2) previsione video condizionata all'azione e (3) pianificazione visiva condizionata agli obiettivi. Attraverso l'apprendimento intervallato di caratteristiche, Aether raggiunge una condivisione sinergica della conoscenza tra gli obiettivi di ricostruzione, previsione e pianificazione. Basandosi su modelli di generazione video, il nostro framework dimostra una generalizzazione senza precedenti dal sintetico al reale nonostante non abbia mai osservato dati del mondo reale durante l'addestramento. Inoltre, il nostro approccio raggiunge una generalizzazione zero-shot sia nei compiti di esecuzione di azioni che di ricostruzione, grazie alla sua modellazione geometrica intrinseca. Notevolmente, anche senza dati del mondo reale, le sue prestazioni di ricostruzione superano di gran lunga quelle di modelli specifici per dominio. In aggiunta, Aether sfrutta uno spazio d'azione informato dalla geometria per tradurre in modo fluido le previsioni in azioni, abilitando una pianificazione efficace di traiettorie autonome. Speriamo che il nostro lavoro ispiri la comunità a esplorare nuove frontiere nella modellazione fisicamente plausibile del mondo e nelle sue applicazioni.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.