ChatPaper.aiChatPaper

LLaNA: 대형 언어 모델 및 NeRF 보조 시스템

LLaNA: Large Language and NeRF Assistant

June 17, 2024
저자: Andrea Amaduzzi, Pierluigi Zama Ramirez, Giuseppe Lisanti, Samuele Salti, Luigi Di Stefano
cs.AI

초록

멀티모달 대형 언어 모델(MLLM)은 이미지와 3D 데이터에 대한 뛰어난 이해력을 보여주고 있습니다. 그러나 이 두 모달리티 모두 객체의 외관과 기하학적 특성을 전체적으로 포착하는 데 한계가 있습니다. 한편, 단순한 다층 퍼셉트론(MLP)의 가중치 내에 정보를 인코딩하는 신경 방사 필드(NeRF)는 객체의 기하학적 구조와 사실적인 외관을 동시에 인코딩하는 점점 더 널리 사용되는 모달리티로 부상하고 있습니다. 본 논문은 NeRF를 MLLM에 통합하는 것의 가능성과 효과를 탐구합니다. 우리는 NeRF 캡셔닝 및 질의응답과 같은 새로운 작업을 수행할 수 있는 최초의 범용 NeRF-언어 어시스턴트인 LLaNA를 개발했습니다. 특히, 우리의 방법은 NeRF의 MLP 가중치를 직접 처리하여 표현된 객체에 대한 정보를 추출하며, 이미지를 렌더링하거나 3D 데이터 구조를 구체화할 필요가 없습니다. 더 나아가, 우리는 다양한 NeRF-언어 작업을 위한 텍스트 주석이 포함된 NeRF 데이터셋을 인간의 개입 없이 구축했습니다. 이 데이터셋을 기반으로, 우리는 우리의 방법의 NeRF 이해 능력을 평가하기 위한 벤치마크를 개발했습니다. 결과는 NeRF 가중치를 처리하는 것이 NeRF에서 2D 또는 3D 표현을 추출하는 것보다 유리하다는 것을 보여줍니다.
English
Multimodal Large Language Models (MLLMs) have demonstrated an excellent understanding of images and 3D data. However, both modalities have shortcomings in holistically capturing the appearance and geometry of objects. Meanwhile, Neural Radiance Fields (NeRFs), which encode information within the weights of a simple Multi-Layer Perceptron (MLP), have emerged as an increasingly widespread modality that simultaneously encodes the geometry and photorealistic appearance of objects. This paper investigates the feasibility and effectiveness of ingesting NeRF into MLLM. We create LLaNA, the first general-purpose NeRF-language assistant capable of performing new tasks such as NeRF captioning and Q\&A. Notably, our method directly processes the weights of the NeRF's MLP to extract information about the represented objects without the need to render images or materialize 3D data structures. Moreover, we build a dataset of NeRFs with text annotations for various NeRF-language tasks with no human intervention. Based on this dataset, we develop a benchmark to evaluate the NeRF understanding capability of our method. Results show that processing NeRF weights performs favourably against extracting 2D or 3D representations from NeRFs.

Summary

AI-Generated Summary

PDF183December 6, 2024