Taakgerichte Sequentiële Gronding in 3D-scènes
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Auteurs: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Samenvatting
Het verankeren van natuurlijke taal in fysieke 3D-omgevingen is essentieel voor de vooruitgang van belichaamde kunstmatige intelligentie. Huidige datasets en modellen voor 3D-visuele verankering richten zich voornamelijk op het identificeren en lokaliseren van objecten op basis van statische, objectgerichte beschrijvingen. Deze benaderingen gaan onvoldoende in op de dynamische en sequentiële aard van taakgerichte verankering die nodig is voor praktische toepassingen. In dit werk stellen we een nieuwe taak voor: Taakgerichte Sequentiele Verankering in 3D-scènes, waarbij een agent gedetailleerde stap-voor-stap instructies moet volgen om dagelijkse activiteiten uit te voeren door een reeks doelobjecten in binnenomgevingen te lokaliseren. Om deze taak te faciliteren, introduceren we SG3D, een grootschalige dataset met 22.346 taken en 112.236 stappen verspreid over 4.895 realistische 3D-scènes. De dataset is opgebouwd met een combinatie van RGB-D-scans uit verschillende 3D-scènedatasets en een geautomatiseerde taakgeneratiepipeline, gevolgd door menselijke verificatie voor kwaliteitsborging. We hebben drie state-of-the-art 3D-visuele verankeringsmodellen aangepast aan de sequentiële verankerings taak en hun prestaties geëvalueerd op SG3D. Onze resultaten laten zien dat hoewel deze modellen goed presteren op traditionele benchmarks, ze aanzienlijke uitdagingen ondervinden bij taakgerichte sequentiële verankering, wat de noodzaak voor verder onderzoek op dit gebied onderstreept.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.