ChatPaper.aiChatPaper

LLM 3D Fundamentado con Tokens de Referencia

Grounded 3D-LLM with Referent Tokens

May 16, 2024
Autores: Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang
cs.AI

Resumen

Estudios previos sobre comprensión de escenas 3D han desarrollado principalmente modelos especializados para tareas específicas o han requerido ajustes específicos para cada tarea. En este estudio, proponemos Grounded 3D-LLM, que explora el potencial de los modelos multimodales grandes en 3D (3D LMMs) para consolidar diversas tareas de visión 3D dentro de un marco generativo unificado. El modelo utiliza tokens de referencia de escena como frases nominales especiales para referenciar escenas 3D, permitiendo el manejo de secuencias que intercalan datos 3D y textuales. Ofrece un enfoque natural para traducir tareas de visión 3D a formatos de lenguaje utilizando plantillas de instrucción específicas para cada tarea. Para facilitar el uso de tokens de referencia en el modelado de lenguaje subsiguiente, hemos creado conjuntos de datos de lenguaje anclado a gran escala que ofrecen una correspondencia más detallada entre escena y texto a nivel de frase, aprovechando etiquetas de objetos existentes. Posteriormente, introdujimos el preentrenamiento Contrastivo de Lenguaje-Escena (CLASP) para aprovechar eficazmente estos datos, integrando así la visión 3D con modelos de lenguaje. Nuestra evaluación exhaustiva cubre tareas de respuesta abierta como la generación de descripciones densas y preguntas y respuestas en 3D, junto con tareas de respuesta cerrada como la detección de objetos y el anclaje de lenguaje. Los experimentos en múltiples benchmarks de 3D revelan el rendimiento líder y la amplia aplicabilidad de Grounded 3D-LLM. El código y los conjuntos de datos se publicarán en la página del proyecto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
English
Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

Summary

AI-Generated Summary

PDF131December 15, 2024