Grounding Sequenziale Orientato ai Compiti in Scene 3D
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Autori: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Abstract
L'ancoraggio del linguaggio naturale in ambienti fisici 3D è essenziale per il progresso dell'intelligenza artificiale incarnata. I dataset e i modelli attuali per l'ancoraggio visivo 3D si concentrano principalmente sull'identificazione e localizzazione di oggetti a partire da descrizioni statiche e centrate sugli oggetti. Questi approcci non affrontano adeguatamente la natura dinamica e sequenziale dell'ancoraggio orientato ai compiti, necessario per applicazioni pratiche. In questo lavoro, proponiamo un nuovo compito: l'Ancoraggio Sequenziale Orientato ai Compiti in scene 3D, in cui un agente deve seguire istruzioni dettagliate passo-passo per completare attività quotidiane localizzando una sequenza di oggetti target in scene indoor. Per facilitare questo compito, introduciamo SG3D, un dataset su larga scala contenente 22.346 compiti con 112.236 passaggi distribuiti su 4.895 scene 3D del mondo reale. Il dataset è stato costruito utilizzando una combinazione di scansioni RGB-D provenienti da vari dataset di scene 3D e una pipeline automatizzata per la generazione dei compiti, seguita da una verifica umana per garantire la qualità. Abbiamo adattato tre modelli all'avanguardia per l'ancoraggio visivo 3D al compito di ancoraggio sequenziale e valutato le loro prestazioni su SG3D. I nostri risultati rivelano che, sebbene questi modelli performino bene su benchmark tradizionali, affrontano sfide significative con l'ancoraggio sequenziale orientato ai compiti, evidenziando la necessità di ulteriori ricerche in questo ambito.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.