Генеративный мироисследовательGenerative World Explorer
Планирование с частичным наблюдением является центральным вызовом во воплощенном искусственном интеллекте. Большинство предыдущих работ решали этот вызов, разрабатывая агентов, которые физически исследуют своё окружение для обновления своих убеждений о состоянии мира. В отличие от этого, люди могут представить невидимые части мира через ментальное исследование и пересмотреть свои убеждения с помощью воображаемых наблюдений. Такие обновленные убеждения могут позволить им принимать более обоснованные решения, не требуя физического исследования мира постоянно. Для достижения этой человекоподобной способности мы представляем Генеративного Исследователя Мира (Genex), фреймворк исследования мира в эгоцентрическом пространстве, который позволяет агенту ментально исследовать масштабный 3D мир (например, городские сцены) и получать воображаемые наблюдения для обновления своего убеждения. Это обновленное убеждение затем поможет агенту принять более обоснованное решение на текущем шаге. Для обучения Genex мы создаем синтетический набор данных городской среды, Genex-DB. Наши экспериментальные результаты показывают, что (1) Genex может генерировать качественные и последовательные наблюдения во время длительного исследования большого виртуального физического мира и (2) убеждения, обновленные сгенерированными наблюдениями, могут информировать существующую модель принятия решений (например, агента LLM) для создания более эффективных планов.