Задачеориентированное последовательное выравнивание в трехмерных сценах
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Авторы: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Аннотация
Закрепление естественного языка в физических трехмерных средах является важным для развития воплощенного искусственного интеллекта. Существующие наборы данных и модели для трехмерного визуального закрепления в основном сосредотачиваются на идентификации и локализации объектов из статических, объектно-центрических описаний. Эти подходы не достаточно учитывают динамическую и последовательную природу задачного закрепления, необходимую для практических применений. В данной работе мы предлагаем новую задачу: Задача-ориентированное Последовательное Закрепление в трехмерных сценах, где агент должен следовать подробным пошаговым инструкциям для выполнения повседневных действий, находя последовательность целевых объектов в помещениях. Для облегчения этой задачи мы представляем SG3D, крупномасштабный набор данных, содержащий 22 346 задач с 112 236 шагами по 4 895 трехмерным сценам реального мира. Набор данных создан с использованием комбинации RGB-D сканов из различных наборов данных трехмерных сцен и автоматизированного процесса генерации задач, за которым следует верификация человеком для обеспечения качества. Мы адаптировали три передовые модели трехмерного визуального закрепления к задаче последовательного закрепления и оценили их производительность на SG3D. Наши результаты показывают, что в то время как эти модели хорошо справляются с традиционными бенчмарками, они сталкиваются с значительными трудностями в задаче ориентированного на задачу последовательного закрепления, подчеркивая необходимость дальнейших исследований в этой области.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary