NExT-Chat: Um Modelo de Linguagem Multimodal para Chat, Detecção e Segmentação
NExT-Chat: An LMM for Chat, Detection and Segmentation
November 8, 2023
Autores: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI
Resumo
O desenvolvimento de grandes modelos de linguagem (LLMs) tem avançado significativamente o campo da compreensão multimodal, levando ao surgimento de grandes modelos multimodais (LMMs). Para aprimorar o nível de compreensão visual, estudos recentes equiparam os LMMs com capacidades de entendimento em nível de região, representando as coordenadas das caixas delimitadoras de objetos como uma série de sequências de texto (pixel2seq). Neste artigo, introduzimos um novo paradigma para modelagem de localização de objetos chamado método pixel2emb, no qual solicitamos que o LMM gere embeddings de localização, que são então decodificados por diferentes decodificadores. Esse paradigma permite que diferentes formatos de localização (como caixas delimitadoras e máscaras) sejam utilizados em conversas multimodais. Além disso, esse tipo de modelagem de localização baseada em embeddings possibilita a utilização de práticas existentes em tarefas de localização, como detecção e segmentação. Em cenários com recursos limitados, nosso pixel2emb demonstra desempenho superior em comparação com as abordagens state-of-the-art (SOTA) existentes, tanto em tarefas de entrada quanto de saída de localização, sob comparação justa. Aproveitando o método pixel2emb proposto, treinamos um LMM chamado NExT-Chat e demonstramos sua capacidade de lidar com múltiplas tarefas, como ancoragem visual, descrição de região e raciocínio fundamentado.
English
The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.