Aether: Modellizzazione Unificata del Mondo con Consapevolezza Geometrica

Abstract

L'integrazione tra ricostruzione geometrica e modellazione generativa rimane una sfida cruciale nello sviluppo di sistemi di intelligenza artificiale capaci di ragionamento spaziale simile a quello umano. Questo articolo propone Aether, un framework unificato che abilita il ragionamento consapevole della geometria nei modelli del mondo ottimizzando congiuntamente tre capacità fondamentali: (1) ricostruzione dinamica 4D, (2) previsione video condizionata all'azione e (3) pianificazione visiva condizionata agli obiettivi. Attraverso l'apprendimento intervallato di caratteristiche, Aether raggiunge una condivisione sinergica della conoscenza tra gli obiettivi di ricostruzione, previsione e pianificazione. Basandosi su modelli di generazione video, il nostro framework dimostra una generalizzazione senza precedenti dal sintetico al reale nonostante non abbia mai osservato dati del mondo reale durante l'addestramento. Inoltre, il nostro approccio raggiunge una generalizzazione zero-shot sia nei compiti di esecuzione di azioni che di ricostruzione, grazie alla sua modellazione geometrica intrinseca. Notevolmente, anche senza dati del mondo reale, le sue prestazioni di ricostruzione superano di gran lunga quelle di modelli specifici per dominio. In aggiunta, Aether sfrutta uno spazio d'azione informato dalla geometria per tradurre in modo fluido le previsioni in azioni, abilitando una pianificazione efficace di traiettorie autonome. Speriamo che il nostro lavoro ispiri la comunità a esplorare nuove frontiere nella modellazione fisicamente plausibile del mondo e nelle sue applicazioni.

English

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Aether: Modellizzazione Unificata del Mondo con Consapevolezza Geometrica

Aether: Geometric-Aware Unified World Modeling

Abstract

Support