GenEx: Создание исследуемого мира
GenEx: Generating an Explorable World
December 12, 2024
Авторы: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI
Аннотация
Понимание, навигация и исследование трехмерного физического реального мира давно являются центральным вызовом в развитии искусственного интеллекта. В данной работе мы делаем шаг в направлении этой цели, представляя GenEx, систему способную планировать сложное исследование мира с помощью воплощенного воображения, формирующего априорные представления о окружающей среде. GenEx создает целое трехмерное согласованное воображаемое окружение даже по одному RGB изображению, оживляя его через панорамные видеопотоки. Используя масштабируемые трехмерные данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она охватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая бескрайний ландшафт для исследования и взаимодействия искусственного интеллекта. GenEx достигает высококачественной генерации мира, устойчивой цикличности на длинных траекториях и демонстрирует сильные трехмерные возможности, такие как согласованность и активное трехмерное картографирование. Благодаря генеративному воображению мира, агенты, поддерживаемые GPT, способны выполнять сложные задачи воплощенного интеллекта, включая как бесцельное исследование, так и целенаправленную навигацию. Эти агенты используют предсказательные ожидания относительно невидимых частей физического мира для уточнения своих убеждений, симулируют различные результаты на основе потенциальных решений и принимают более обоснованные выборы. В итоге, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного искусственного интеллекта в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.
English
Understanding, navigating, and exploring the 3D physical real world has long
been a central challenge in the development of artificial intelligence. In this
work, we take a step toward this goal by introducing GenEx, a system capable of
planning complex embodied world exploration, guided by its generative
imagination that forms priors (expectations) about the surrounding
environments. GenEx generates an entire 3D-consistent imaginative environment
from as little as a single RGB image, bringing it to life through panoramic
video streams. Leveraging scalable 3D world data curated from Unreal Engine,
our generative model is rounded in the physical world. It captures a continuous
360-degree environment with little effort, offering a boundless landscape for
AI agents to explore and interact with. GenEx achieves high-quality world
generation, robust loop consistency over long trajectories, and demonstrates
strong 3D capabilities such as consistency and active 3D mapping. Powered by
generative imagination of the world, GPT-assisted agents are equipped to
perform complex embodied tasks, including both goal-agnostic exploration and
goal-driven navigation. These agents utilize predictive expectation regarding
unseen parts of the physical world to refine their beliefs, simulate different
outcomes based on potential decisions, and make more informed choices. In
summary, we demonstrate that GenEx provides a transformative platform for
advancing embodied AI in imaginative spaces and brings potential for extending
these capabilities to real-world exploration.Summary
AI-Generated Summary