3D 장면에서의 작업 지향적 순차적 그라운딩
Task-oriented Sequential Grounding in 3D Scenes
August 7, 2024
저자: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li
cs.AI
초록
물리적 3D 환경에서 자연어를 기반으로 하는 것은 살아있는 인공지능의 발전에 중요합니다. 현재의 3D 시각적 기반에 대한 데이터셋과 모델은 주로 정적이고 객체 중심적인 설명에서 객체를 식별하고 위치를 파악하는 데 초점을 맞추고 있습니다. 이러한 접근 방식은 실용적인 응용 프로그램에 필요한 작업 지향적 기반의 동적이고 순차적인 성격을 충분히 다루지 못합니다. 본 연구에서는 새로운 작업을 제안합니다: 3D 장면에서의 작업 지향적 순차 기반, 여기서 에이전트는 실내 장면에서 순차적으로 대상 객체를 찾아 일상 활동을 완료하기 위해 자세한 단계별 지침을 따라야 합니다. 이 작업을 용이하게 하기 위해 22,346개의 작업과 112,236개의 단계가 포함된 대규모 데이터셋 SG3D를 소개합니다. 이 데이터셋은 다양한 3D 장면 데이터셋의 RGB-D 스캔과 자동화된 작업 생성 파이프라인을 결합하여 구성되었으며, 품질 보증을 위해 인간 검증이 이루어졌습니다. 우리는 세 가지 최첨단 3D 시각적 기반 모델을 순차 기반 작업에 적응시키고 SG3D에서 그들의 성능을 평가했습니다. 결과는 이러한 모델이 기존의 벤치마크에서 잘 수행되지만, 작업 지향적 순차 기반에서 중요한 도전에 직면하며, 이 분야에서 추가 연구가 필요함을 강조합니다.
English
Grounding natural language in physical 3D environments is essential for the
advancement of embodied artificial intelligence. Current datasets and models
for 3D visual grounding predominantly focus on identifying and localizing
objects from static, object-centric descriptions. These approaches do not
adequately address the dynamic and sequential nature of task-oriented grounding
necessary for practical applications. In this work, we propose a new task:
Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow
detailed step-by-step instructions to complete daily activities by locating a
sequence of target objects in indoor scenes. To facilitate this task, we
introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236
steps across 4,895 real-world 3D scenes. The dataset is constructed using a
combination of RGB-D scans from various 3D scene datasets and an automated task
generation pipeline, followed by human verification for quality assurance. We
adapted three state-of-the-art 3D visual grounding models to the sequential
grounding task and evaluated their performance on SG3D. Our results reveal that
while these models perform well on traditional benchmarks, they face
significant challenges with task-oriented sequential grounding, underscoring
the need for further research in this area.Summary
AI-Generated Summary