Fundamentação Sequencial Orientada à Tarefa em Cenas 3D
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Autores: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Resumo
A ancoragem da linguagem natural em ambientes físicos 3D é essencial para o avanço da inteligência artificial incorporada. Conjuntos de dados e modelos atuais para ancoragem visual 3D focam predominantemente na identificação e localização de objetos a partir de descrições estáticas centradas em objetos. Essas abordagens não abordam adequadamente a natureza dinâmica e sequencial da ancoragem orientada por tarefas necessária para aplicações práticas. Neste trabalho, propomos uma nova tarefa: Ancoragem Sequencial Orientada por Tarefas em cenas 3D, na qual um agente deve seguir instruções detalhadas passo a passo para completar atividades diárias localizando uma sequência de objetos-alvo em cenas internas. Para facilitar essa tarefa, introduzimos o SG3D, um conjunto de dados em grande escala contendo 22.346 tarefas com 112.236 passos em 4.895 cenas 3D do mundo real. O conjunto de dados é construído usando uma combinação de varreduras RGB-D de vários conjuntos de dados de cenas 3D e um pipeline automatizado de geração de tarefas, seguido por verificação humana para garantia de qualidade. Adaptamos três modelos de ancoragem visual 3D de ponta para a tarefa de ancoragem sequencial e avaliamos seu desempenho no SG3D. Nossos resultados revelam que, embora esses modelos tenham bom desempenho em benchmarks tradicionais, enfrentam desafios significativos com a ancoragem sequencial orientada por tarefas, destacando a necessidade de mais pesquisas nessa área.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary