ChatPaper.aiChatPaper

Explorador Generativo de Mundos

Generative World Explorer

November 18, 2024
Autores: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI

Resumen

La planificación con observación parcial es un desafío central en la IA incorporada. La mayoría de trabajos previos han abordado este desafío desarrollando agentes que exploran físicamente su entorno para actualizar sus creencias sobre el estado del mundo. En contraste, los humanos pueden imaginar partes no vistas del mundo a través de una exploración mental y revisar sus creencias con observaciones imaginadas. Estas creencias actualizadas les permiten tomar decisiones más informadas, sin necesidad de explorar físicamente el mundo en todo momento. Para lograr esta capacidad similar a la humana, presentamos el Explorador de Mundo Generativo (Genex), un marco de exploración del mundo egocéntrico que permite a un agente explorar mentalmente un mundo 3D a gran escala (por ejemplo, escenas urbanas) y adquirir observaciones imaginadas para actualizar sus creencias. Estas creencias actualizadas ayudarán al agente a tomar decisiones más informadas en el paso actual. Para entrenar a Genex, creamos un conjunto de datos sintético de escenas urbanas, Genex-DB. Nuestros resultados experimentales demuestran que (1) Genex puede generar observaciones de alta calidad y consistentes durante la exploración a largo plazo de un mundo físico virtual grande y (2) las creencias actualizadas con las observaciones generadas pueden informar a un modelo de toma de decisiones existente (por ejemplo, un agente LLM) para planificar mejor.
English
Planning with partial observation is a central challenge in embodied AI. A majority of prior works have tackled this challenge by developing agents that physically explore their environment to update their beliefs about the world state.In contrast, humans can imagine unseen parts of the world through a mental exploration and revise their beliefs with imagined observations. Such updated beliefs can allow them to make more informed decisions, without necessitating the physical exploration of the world at all times. To achieve this human-like ability, we introduce the Generative World Explorer (Genex), an egocentric world exploration framework that allows an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and acquire imagined observations to update its belief. This updated belief will then help the agent to make a more informed decision at the current step. To train Genex, we create a synthetic urban scene dataset, Genex-DB. Our experimental results demonstrate that (1) Genex can generate high-quality and consistent observations during long-horizon exploration of a large virtual physical world and (2) the beliefs updated with the generated observations can inform an existing decision-making model (e.g., an LLM agent) to make better plans.

Summary

AI-Generated Summary

PDF786November 19, 2024