Aether: Modelagem Unificada do Mundo com Consciência Geométrica
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
Autores: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
Resumo
A integração entre reconstrução geométrica e modelagem generativa continua sendo um desafio crítico no desenvolvimento de sistemas de IA capazes de raciocínio espacial semelhante ao humano. Este artigo propõe o Aether, um framework unificado que permite raciocínio consciente da geometria em modelos de mundo, otimizando conjuntamente três capacidades principais: (1) reconstrução dinâmica 4D, (2) previsão de vídeo condicionada por ações e (3) planejamento visual condicionado por objetivos. Por meio do aprendizado de características intercaladas por tarefas, o Aether alcança compartilhamento sinérgico de conhecimento entre objetivos de reconstrução, previsão e planejamento. Baseando-se em modelos de geração de vídeo, nosso framework demonstra generalização sintético-real sem precedentes, apesar de nunca ter observado dados do mundo real durante o treinamento. Além disso, nossa abordagem alcança generalização zero-shot tanto em tarefas de seguimento de ações quanto de reconstrução, graças à sua modelagem geométrica intrínseca. Notavelmente, mesmo sem dados do mundo real, seu desempenho de reconstrução supera amplamente o de modelos específicos de domínio. Adicionalmente, o Aether aproveita um espaço de ação informado pela geometria para traduzir previsões em ações de forma contínua, permitindo planejamento autônomo eficaz de trajetórias. Esperamos que nosso trabalho inspire a comunidade a explorar novas fronteiras na modelagem de mundo fisicamente plausível e suas aplicações.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary