Aether: 기하학적 인식을 통한 통합 세계 모델링
Aether: Geometric-Aware Unified World Modeling
March 24, 2025
저자: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI
초록
기하학적 재구성과 생성 모델링의 통합은 인간과 유사한 공간 추론 능력을 갖춘 AI 시스템 개발에서 여전히 중요한 과제로 남아 있습니다. 본 논문은 Aether라는 통합 프레임워크를 제안하며, 이는 세 가지 핵심 기능인 (1) 4D 동적 재구성, (2) 행동 조건 비디오 예측, (3) 목표 조건 시각적 계획을 공동으로 최적화함으로써 세계 모델 내에서 기하학적 인식 추론을 가능하게 합니다. 작업 간 특성 학습을 통해 Aether는 재구성, 예측, 계획 목표 간의 시너지적 지식 공유를 달성합니다. 비디오 생성 모델을 기반으로 한 우리의 프레임워크는 훈련 중 실제 세계 데이터를 전혀 관찰하지 않았음에도 불구하고 전례 없는 합성-실제 일반화를 보여줍니다. 더욱이, 본 접근법은 내재된 기하학적 모델링 덕분에 행동 추종 및 재구성 작업 모두에서 제로샷 일반화를 달성합니다. 주목할 만한 점은, 실제 세계 데이터 없이도 재구성 성능이 도메인 특화 모델을 훨씬 능가한다는 것입니다. 또한, Aether는 기하학적 정보를 반영한 행동 공간을 활용하여 예측을 행동으로 원활하게 변환함으로써 효과적인 자율 궤적 계획을 가능하게 합니다. 우리의 연구가 물리적으로 타당한 세계 모델링과 그 응용 분야에서 새로운 지평을 탐구하도록 커뮤니티에 영감을 주기를 바랍니다.
English
The integration of geometric reconstruction and generative modeling remains a
critical challenge in developing AI systems capable of human-like spatial
reasoning. This paper proposes Aether, a unified framework that enables
geometry-aware reasoning in world models by jointly optimizing three core
capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video
prediction, and (3) goal-conditioned visual planning. Through task-interleaved
feature learning, Aether achieves synergistic knowledge sharing across
reconstruction, prediction, and planning objectives. Building upon video
generation models, our framework demonstrates unprecedented synthetic-to-real
generalization despite never observing real-world data during training.
Furthermore, our approach achieves zero-shot generalization in both action
following and reconstruction tasks, thanks to its intrinsic geometric modeling.
Remarkably, even without real-world data, its reconstruction performance far
exceeds that of domain-specific models. Additionally, Aether leverages a
geometry-informed action space to seamlessly translate predictions into
actions, enabling effective autonomous trajectory planning. We hope our work
inspires the community to explore new frontiers in physically-reasonable world
modeling and its applications.Summary
AI-Generated Summary