Grounded séquentiel orienté tâche dans des scènes 3D
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
Auteurs: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
Résumé
L'ancrage du langage naturel dans des environnements physiques 3D est essentiel pour l'avancement de l'intelligence artificielle incarnée. Les ensembles de données et modèles actuels pour l'ancrage visuel 3D se concentrent principalement sur l'identification et la localisation d'objets à partir de descriptions statiques centrées sur les objets. Ces approches ne répondent pas adéquatement à la nature dynamique et séquentielle de l'ancrage orienté tâche nécessaire pour des applications pratiques. Dans ce travail, nous proposons une nouvelle tâche : l'Ancrage Séquentiel Orienté Tâche dans des scènes 3D, où un agent doit suivre des instructions détaillées étape par étape pour accomplir des activités quotidiennes en localisant une séquence d'objets cibles dans des scènes intérieures. Pour faciliter cette tâche, nous introduisons SG3D, un ensemble de données à grande échelle contenant 22 346 tâches avec 112 236 étapes réparties sur 4 895 scènes 3D du monde réel. L'ensemble de données est construit en combinant des scans RGB-D provenant de divers ensembles de données de scènes 3D et un pipeline automatisé de génération de tâches, suivi d'une vérification humaine pour assurer la qualité. Nous avons adapté trois modèles d'ancrage visuel 3D de pointe à la tâche d'ancrage séquentiel et évalué leurs performances sur SG3D. Nos résultats révèlent que si ces modèles performent bien sur les benchmarks traditionnels, ils rencontrent des défis significatifs avec l'ancrage séquentiel orienté tâche, soulignant le besoin de recherches supplémentaires dans ce domaine.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary