Aether: 幾何学的認識を統合した世界モデリング
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
著者: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
要旨
幾何学的再構成と生成的モデリングの統合は、人間のような空間推論能力を持つAIシステムを開発する上で依然として重要な課題です。本論文では、Aetherという統一フレームワークを提案します。Aetherは、3つのコア能力(1)4次元動的再構成、(2)行動条件付きビデオ予測、(3)目標条件付き視覚計画を共同最適化することで、世界モデルにおける幾何学的認識を可能にします。タスクを交互に行う特徴学習を通じて、Aetherは再構成、予測、計画の目標間で相乗的な知識共有を実現します。ビデオ生成モデルを基盤として、本フレームワークはトレーニング中に実世界のデータを一切観察していないにもかかわらず、前例のない合成から実世界への汎化性能を示します。さらに、本アプローチは、その本質的な幾何学的モデリングにより、行動追従と再構成タスクの両方においてゼロショット汎化を達成します。驚くべきことに、実世界のデータがなくても、その再構成性能はドメイン固有のモデルをはるかに凌駕します。加えて、Aetherは幾何学的に情報化された行動空間を活用して、予測を行動にシームレスに変換し、効果的な自律軌道計画を可能にします。本研究が、物理的に妥当な世界モデリングとその応用における新たなフロンティアを探求するコミュニティのインスピレーションとなることを願っています。
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary