ChatPaper.aiChatPaper

GenEx: Создание исследуемого мира

GenEx: Generating an Explorable World

December 12, 2024
Авторы: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
cs.AI

Аннотация

Понимание, навигация и исследование трехмерного физического реального мира давно являются центральным вызовом в развитии искусственного интеллекта. В данной работе мы делаем шаг в направлении этой цели, представляя GenEx, систему способную планировать сложное исследование мира с помощью воплощенного воображения, формирующего априорные представления о окружающей среде. GenEx создает целое трехмерное согласованное воображаемое окружение даже по одному RGB изображению, оживляя его через панорамные видеопотоки. Используя масштабируемые трехмерные данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она охватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая бескрайний ландшафт для исследования и взаимодействия искусственного интеллекта. GenEx достигает высококачественной генерации мира, устойчивой цикличности на длинных траекториях и демонстрирует сильные трехмерные возможности, такие как согласованность и активное трехмерное картографирование. Благодаря генеративному воображению мира, агенты, поддерживаемые GPT, способны выполнять сложные задачи воплощенного интеллекта, включая как бесцельное исследование, так и целенаправленную навигацию. Эти агенты используют предсказательные ожидания относительно невидимых частей физического мира для уточнения своих убеждений, симулируют различные результаты на основе потенциальных решений и принимают более обоснованные выборы. В итоге, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного искусственного интеллекта в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.
English
Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.

Summary

AI-Generated Summary

PDF972December 16, 2024