NExT-Chat: 채팅, 탐지 및 분할을 위한 다중모달 언어 모델
NExT-Chat: An LMM for Chat, Detection and Segmentation
November 8, 2023
저자: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI
초록
대규모 언어 모델(LLM)의 발전은 다중모달 이해 분야를 크게 진전시켰으며, 이로 인해 대규모 다중모달 모델(LMM)이 등장하게 되었습니다. 시각적 이해 수준을 향상시키기 위해 최근 연구들은 객체의 바운딩 박스 좌표를 일련의 텍스트 시퀀스(pixel2seq)로 표현함으로써 LMM에 영역 수준의 이해 능력을 부여했습니다. 본 논문에서는 객체 위치 모델링을 위한 새로운 패러다임인 pixel2emb 방법을 소개합니다. 이 방법에서는 LMM이 위치 임베딩을 출력하도록 요청한 후, 이를 다양한 디코더로 디코딩합니다. 이 패러다임은 바운딩 박스와 마스크와 같은 다양한 위치 형식을 다중모달 대화에서 사용할 수 있게 합니다. 또한, 이러한 임베딩 기반 위치 모델링은 탐지 및 분할과 같은 위치 지정 작업에서 기존의 관행을 활용할 수 있게 합니다. 제한된 자원 환경에서, 우리의 pixel2emb는 공정한 비교 하에서 위치 입력 및 출력 작업 모두에서 기존의 최첨단(SOTA) 접근법보다 우수한 성능을 보여줍니다. 제안된 pixel2emb 방법을 활용하여, 우리는 NExT-Chat이라는 LMM을 학습시키고, 시각적 그라운딩, 영역 캡션, 그리고 그라운디드 추론과 같은 여러 작업을 처리할 수 있는 능력을 입증합니다.
English
The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.