ChatPaper.aiChatPaper

Explorador de Mundo Generativo

Generative World Explorer

November 18, 2024
Autores: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI

Resumo

O planeamento com observação parcial é um desafio central na IA incorporada. A maioria dos trabalhos anteriores abordou esse desafio desenvolvendo agentes que exploram fisicamente seu ambiente para atualizar suas crenças sobre o estado do mundo. Em contraste, os humanos podem imaginar partes não vistas do mundo através de uma exploração mental e revisar suas crenças com observações imaginadas. Tais crenças atualizadas podem permitir que tomem decisões mais informadas, sem necessidade de explorar fisicamente o mundo o tempo todo. Para alcançar essa habilidade semelhante à humana, introduzimos o Explorador de Mundo Generativo (Genex), um framework de exploração de mundo egocêntrico que permite a um agente explorar mentalmente um mundo 3D em grande escala (por exemplo, cenas urbanas) e adquirir observações imaginadas para atualizar sua crença. Essa crença atualizada ajudará então o agente a tomar uma decisão mais informada no passo atual. Para treinar o Genex, criamos um conjunto de dados sintético de cenas urbanas, Genex-DB. Nossos resultados experimentais demonstram que (1) o Genex pode gerar observações de alta qualidade e consistentes durante a exploração de longo prazo de um mundo físico virtual em grande escala e (2) as crenças atualizadas com as observações geradas podem informar um modelo de tomada de decisão existente (por exemplo, um agente LLM) para fazer planos melhores.
English
Planning with partial observation is a central challenge in embodied AI. A majority of prior works have tackled this challenge by developing agents that physically explore their environment to update their beliefs about the world state.In contrast, humans can imagine unseen parts of the world through a mental exploration and revise their beliefs with imagined observations. Such updated beliefs can allow them to make more informed decisions, without necessitating the physical exploration of the world at all times. To achieve this human-like ability, we introduce the Generative World Explorer (Genex), an egocentric world exploration framework that allows an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and acquire imagined observations to update its belief. This updated belief will then help the agent to make a more informed decision at the current step. To train Genex, we create a synthetic urban scene dataset, Genex-DB. Our experimental results demonstrate that (1) Genex can generate high-quality and consistent observations during long-horizon exploration of a large virtual physical world and (2) the beliefs updated with the generated observations can inform an existing decision-making model (e.g., an LLM agent) to make better plans.

Summary

AI-Generated Summary

PDF786November 19, 2024