Fundamentación secuencial orientada a tareas en escenas 3D

Resumen

La fundamentación del lenguaje natural en entornos físicos tridimensionales es esencial para el avance de la inteligencia artificial incorporada. Los conjuntos de datos y modelos actuales para la fundamentación visual en 3D se centran predominantemente en la identificación y localización de objetos a partir de descripciones estáticas centradas en objetos. Estos enfoques no abordan adecuadamente la naturaleza dinámica y secuencial de la fundamentación orientada a tareas necesaria para aplicaciones prácticas. En este trabajo, proponemos una nueva tarea: Fundamentación Secuencial Orientada a Tareas en escenas 3D, donde un agente debe seguir instrucciones detalladas paso a paso para completar actividades diarias localizando una secuencia de objetos objetivo en escenas interiores. Para facilitar esta tarea, presentamos SG3D, un conjunto de datos a gran escala que contiene 22,346 tareas con 112,236 pasos en 4,895 escenas 3D del mundo real. El conjunto de datos se construye utilizando una combinación de escaneos RGB-D de varios conjuntos de datos de escenas 3D y un proceso automatizado de generación de tareas, seguido de verificación humana para garantizar la calidad. Adaptamos tres modelos de fundamentación visual en 3D de última generación a la tarea de fundamentación secuencial y evaluamos su rendimiento en SG3D. Nuestros resultados revelan que si bien estos modelos se desempeñan bien en pruebas tradicionales, enfrentan desafíos significativos con la fundamentación secuencial orientada a tareas, subrayando la necesidad de más investigaciones en esta área.

English

Grounding natural language in physical 3D environments is essential for the advancement of embodied artificial intelligence. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented grounding necessary for practical applications. In this work, we propose a new task: Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow detailed step-by-step instructions to complete daily activities by locating a sequence of target objects in indoor scenes. To facilitate this task, we introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed using a combination of RGB-D scans from various 3D scene datasets and an automated task generation pipeline, followed by human verification for quality assurance. We adapted three state-of-the-art 3D visual grounding models to the sequential grounding task and evaluated their performance on SG3D. Our results reveal that while these models perform well on traditional benchmarks, they face significant challenges with task-oriented sequential grounding, underscoring the need for further research in this area.

Fundamentación secuencial orientada a tareas en escenas 3D

Task-oriented Sequential Grounding in 3D Scenes

Resumen

Support