3Dシーンにおけるタスク指向型逐次グラウンディング
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
著者: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
要旨
物理的な3D環境における自然言語の接地は、具現化された人工知能の進歩にとって不可欠である。現在の3D視覚的接地のためのデータセットとモデルは、主に静的で物体中心の記述から物体を識別し位置特定することに焦点を当てている。これらのアプローチは、実用的なアプリケーションに必要なタスク指向の接地の動的かつ連続的な性質を十分に扱っていない。本研究では、新しいタスクを提案する:3Dシーンにおけるタスク指向の逐次接地。このタスクでは、エージェントが詳細なステップバイステップの指示に従い、屋内シーンで一連のターゲットオブジェクトを見つけることで日常活動を完了しなければならない。このタスクを促進するため、SG3Dという大規模なデータセットを導入する。このデータセットは、4,895の実世界の3Dシーンにわたる22,346のタスクと112,236のステップを含んでいる。データセットは、さまざまな3DシーンデータセットからのRGB-Dスキャンと自動化されたタスク生成パイプラインを組み合わせて構築され、品質保証のために人間による検証が行われた。我々は、3つの最先端の3D視覚的接地モデルを逐次接地タスクに適応させ、SG3Dでの性能を評価した。結果は、これらのモデルが従来のベンチマークでは良好な性能を示すものの、タスク指向の逐次接地においては重大な課題に直面しており、この分野でのさらなる研究の必要性を強調している。
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary