ChatPaper.aiChatPaper

참조 토큰이 포함된 Grounded 3D-LLM

Grounded 3D-LLM with Referent Tokens

May 16, 2024
저자: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI

초록

3D 장면 이해에 관한 기존 연구들은 주로 특정 작업을 위한 전용 모델을 개발하거나 작업별 미세 조정을 요구했습니다. 본 연구에서는 다양한 3D 비전 작업을 통합 생성 프레임워크 내에서 통합할 수 있는 3D 대형 멀티모달 모델(3D LMM)의 잠재력을 탐구하는 Grounded 3D-LLM을 제안합니다. 이 모델은 3D 장면을 참조하기 위한 특수 명사구로 장면 참조 토큰을 사용하여 3D와 텍스트 데이터가 교차하는 시퀀스를 처리할 수 있도록 합니다. 또한 작업별 지시 템플릿을 사용하여 3D 비전 작업을 언어 형식으로 변환하는 자연스러운 접근 방식을 제공합니다. 후속 언어 모델링에서 참조 토큰의 사용을 용이하게 하기 위해, 기존 객체 레이블을 부트스트랩하여 구문 수준에서 더 세밀한 장면-텍스트 대응을 제공하는 대규모 Grounded 언어 데이터셋을 구축했습니다. 이후, Contrastive LAnguage-Scene Pre-training (CLASP)을 도입하여 이 데이터를 효과적으로 활용함으로써 3D 비전과 언어 모델을 통합했습니다. 우리의 포괄적인 평가는 밀집 캡셔닝 및 3D 질의응답과 같은 개방형 작업과 객체 감지 및 언어 그라운딩과 같은 폐쇄형 작업을 모두 포함합니다. 여러 3D 벤치마크에서의 실험을 통해 Grounded 3D-LLM의 선도적인 성능과 광범위한 적용 가능성을 확인했습니다. 코드와 데이터셋은 프로젝트 페이지(https://groundedscenellm.github.io/grounded_3d-llm.github.io)에서 공개될 예정입니다.
English
Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

Summary

AI-Generated Summary

PDF131December 15, 2024