生成ワールドエクスプローラー
Generative World Explorer
November 18, 2024
著者: Taiming Lu, Tianmin Shu, Alan Yuille, Daniel Khashabi, Jieneng Chen
cs.AI
要旨
部分的な観測を伴う計画は、具体的なAIにおける中心的な課題です。これまでの多くの研究は、エージェントが環境を物理的に探索して世界の状態に関する信念を更新することで、この課題に取り組んできました。一方、人間は心の探索を通じて世界の見えない部分を想像し、想像された観測で信念を修正することができます。これらの更新された信念により、常に世界を物理的に探索する必要なしに、より情報豊かな意思決定が可能となります。この人間らしい能力を実現するために、私たちはGenerative World Explorer(Genex)を導入します。これは、エージェントが大規模な3D世界(例:都市のシーン)を心理的に探索し、想像された観測を取得して信念を更新することができるフレームワークです。この更新された信念は、エージェントが現在の段階でより情報豊かな意思決定を行うのに役立ちます。Genexを訓練するために、我々は合成都市シーンデータセットGenex-DBを作成します。実験結果は、Genexが大規模な仮想物理世界の長期探索中に高品質かつ一貫した観測を生成できること、および生成された観測で更新された信念が既存の意思決定モデル(例:LLMエージェント)により良い計画を立てるのに役立つことを示しています。
English
Planning with partial observation is a central challenge in embodied AI. A
majority of prior works have tackled this challenge by developing agents that
physically explore their environment to update their beliefs about the world
state.In contrast, humans can imagine unseen parts of the world
through a mental exploration and revise their beliefs with imagined
observations. Such updated beliefs can allow them to make more informed
decisions, without necessitating the physical exploration of the world at all
times. To achieve this human-like ability, we introduce the Generative
World Explorer (Genex), an egocentric world exploration framework that allows
an agent to mentally explore a large-scale 3D world (e.g., urban scenes) and
acquire imagined observations to update its belief. This updated belief will
then help the agent to make a more informed decision at the current step. To
train Genex, we create a synthetic urban scene dataset, Genex-DB.
Our experimental results demonstrate that (1) Genex can generate
high-quality and consistent observations during long-horizon exploration of a
large virtual physical world and (2) the beliefs updated with the generated
observations can inform an existing decision-making model (e.g., an LLM agent)
to make better plans.Summary
AI-Generated Summary