ChatPaper.aiChatPaper

Генеративный мироисследователь

Generative World Explorer

November 18, 2024
Авторы: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI

Аннотация

Планирование с частичным наблюдением является центральным вызовом во воплощенном искусственном интеллекте. Большинство предыдущих работ решали этот вызов, разрабатывая агентов, которые физически исследуют своё окружение для обновления своих убеждений о состоянии мира. В отличие от этого, люди могут представить невидимые части мира через ментальное исследование и пересмотреть свои убеждения с помощью воображаемых наблюдений. Такие обновленные убеждения могут позволить им принимать более обоснованные решения, не требуя физического исследования мира постоянно. Для достижения этой человекоподобной способности мы представляем Генеративного Исследователя Мира (Genex), фреймворк исследования мира в эгоцентрическом пространстве, который позволяет агенту ментально исследовать масштабный 3D мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего убеждения. Это обновленное убеждение затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаем синтетический набор данных городской среды, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать качественные и последовательные наблюдения во время длительного исследования большого виртуального физического мира и (2) убеждения, обновленные сгенерированными наблюдениями, могут информировать существующую модель принятия решений (например, агента LLM) для создания более эффективных планов.
English
Planning with partial observation is a central challenge in embodied AI. A majority of prior works have tackled this challenge by developing agents that physically explore their environment to update their beliefs about the world state.In contrast, humans can imagine unseen parts of the world through a mental exploration and revise their beliefs with imagined observations. Such updated beliefs can allow them to make more informed decisions, without necessitating the physical exploration of the world at all times. To achieve this human-like ability, we introduce the Generative World Explorer (Genex), an egocentric world exploration framework that allows an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and acquire imagined observations to update its belief. This updated belief will then help the agent to make a more informed decision at the current step. To train Genex, we create a synthetic urban scene dataset, Genex-DB. Our experimental results demonstrate that (1) Genex can generate high-quality and consistent observations during long-horizon exploration of a large virtual physical world and (2) the beliefs updated with the generated observations can inform an existing decision-making model (e.g., an LLM agent) to make better plans.

Summary

AI-Generated Summary

PDF786November 19, 2024