Fundamentación secuencial orientada a tareas en escenas 3D
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Autores: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Resumen
La fundamentación del lenguaje natural en entornos físicos tridimensionales es esencial para el avance de la inteligencia artificial incorporada. Los conjuntos de datos y modelos actuales para la fundamentación visual en 3D se centran predominantemente en la identificación y localización de objetos a partir de descripciones estáticas centradas en objetos. Estos enfoques no abordan adecuadamente la naturaleza dinámica y secuencial de la fundamentación orientada a tareas necesaria para aplicaciones prácticas. En este trabajo, proponemos una nueva tarea: Fundamentación Secuencial Orientada a Tareas en escenas 3D, donde un agente debe seguir instrucciones detalladas paso a paso para completar actividades diarias localizando una secuencia de objetos objetivo en escenas interiores. Para facilitar esta tarea, presentamos SG3D, un conjunto de datos a gran escala que contiene 22,346 tareas con 112,236 pasos en 4,895 escenas 3D del mundo real. El conjunto de datos se construye utilizando una combinación de escaneos RGB-D de varios conjuntos de datos de escenas 3D y un proceso automatizado de generación de tareas, seguido de verificación humana para garantizar la calidad. Adaptamos tres modelos de fundamentación visual en 3D de última generación a la tarea de fundamentación secuencial y evaluamos su rendimiento en SG3D. Nuestros resultados revelan que si bien estos modelos se desempeñan bien en pruebas tradicionales, enfrentan desafíos significativos con la fundamentación secuencial orientada a tareas, subrayando la necesidad de más investigaciones en esta área.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary