Fundamentação Sequencial Orientada à Tarefa em Cenas 3D

Resumo

A ancoragem da linguagem natural em ambientes físicos 3D é essencial para o avanço da inteligência artificial incorporada. Conjuntos de dados e modelos atuais para ancoragem visual 3D focam predominantemente na identificação e localização de objetos a partir de descrições estáticas centradas em objetos. Essas abordagens não abordam adequadamente a natureza dinâmica e sequencial da ancoragem orientada por tarefas necessária para aplicações práticas. Neste trabalho, propomos uma nova tarefa: Ancoragem Sequencial Orientada por Tarefas em cenas 3D, na qual um agente deve seguir instruções detalhadas passo a passo para completar atividades diárias localizando uma sequência de objetos-alvo em cenas internas. Para facilitar essa tarefa, introduzimos o SG3D, um conjunto de dados em grande escala contendo 22.346 tarefas com 112.236 passos em 4.895 cenas 3D do mundo real. O conjunto de dados é construído usando uma combinação de varreduras RGB-D de vários conjuntos de dados de cenas 3D e um pipeline automatizado de geração de tarefas, seguido por verificação humana para garantia de qualidade. Adaptamos três modelos de ancoragem visual 3D de ponta para a tarefa de ancoragem sequencial e avaliamos seu desempenho no SG3D. Nossos resultados revelam que, embora esses modelos tenham bom desempenho em benchmarks tradicionais, enfrentam desafios significativos com a ancoragem sequencial orientada por tarefas, destacando a necessidade de mais pesquisas nessa área.

English

Grounding natural language in physical 3D environments is essential for the advancement of embodied artificial intelligence. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented grounding necessary for practical applications. In this work, we propose a new task: Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow detailed step-by-step instructions to complete daily activities by locating a sequence of target objects in indoor scenes. To facilitate this task, we introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed using a combination of RGB-D scans from various 3D scene datasets and an automated task generation pipeline, followed by human verification for quality assurance. We adapted three state-of-the-art 3D visual grounding models to the sequential grounding task and evaluated their performance on SG3D. Our results reveal that while these models perform well on traditional benchmarks, they face significant challenges with task-oriented sequential grounding, underscoring the need for further research in this area.

Fundamentação Sequencial Orientada à Tarefa em Cenas 3D

Task-oriented Sequential Grounding in 3D Scenes

Resumo

Summary

Support

Support