ChatPaper.aiChatPaper

Aether: Геометрически-осознанное унифицированное моделирование мира

Aether: Geometric-Aware Unified World Modeling

March 24, 2025
Авторы: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
cs.AI

Аннотация

Интеграция геометрической реконструкции и генеративного моделирования остается ключевой задачей в разработке ИИ-систем, способных к человеческому пространственному мышлению. В данной статье представлен Aether — унифицированный фреймворк, который обеспечивает геометрически осознанное рассуждение в моделях мира за счет совместной оптимизации трех основных возможностей: (1) 4D динамической реконструкции, (2) предсказания видео с учетом действий и (3) визуального планирования, ориентированного на цели. Благодаря переплетенному обучению признаков Aether достигает синергетического обмена знаниями между задачами реконструкции, предсказания и планирования. Основанный на моделях генерации видео, наш фреймворк демонстрирует беспрецедентную обобщаемость от синтетических данных к реальным, несмотря на отсутствие данных из реального мира в процессе обучения. Более того, наш подход обеспечивает обобщение с нуля как в задачах следования действиям, так и в задачах реконструкции благодаря встроенному геометрическому моделированию. Примечательно, что даже без данных из реального мира его производительность в реконструкции значительно превосходит специализированные модели. Кроме того, Aether использует геометрически информированное пространство действий для плавного преобразования предсказаний в действия, что позволяет эффективно планировать автономные траектории. Мы надеемся, что наша работа вдохновит сообщество на исследование новых горизонтов в физически обоснованном моделировании мира и его приложениях.
English
The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

Summary

AI-Generated Summary

PDF282March 25, 2025