NExT-Chat: Een LMM voor Chat, Detectie en Segmentatie
NExT-Chat: An LMM for Chat, Detection and Segmentation
November 8, 2023
Auteurs: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI
Samenvatting
De ontwikkeling van grote taalmodelen (LLMs) heeft het vakgebied van multimodale begripsvorming aanzienlijk vooruitgebracht, wat heeft geleid tot de opkomst van grote multimodale modellen (LMMs). Om het niveau van visueel begrip te verbeteren, hebben recente studies LMMs uitgerust met begripscapaciteiten op regioniveau door de coördinaten van objectbegrenzingsvakken weer te geven als een reeks tekstsequenties (pixel2seq). In dit artikel introduceren we een nieuw paradigma voor het modelleren van objectlocaties, genaamd de pixel2emb-methode, waarbij we het LMM vragen om locatie-embeddingen uit te voeren die vervolgens worden gedecodeerd door verschillende decoders. Dit paradigma maakt het mogelijk om verschillende locatieformaten (zoals begrenzingsvakken en maskers) te gebruiken in multimodale gesprekken. Bovendien maakt dit soort op embedding gebaseerde locatiemodellering het mogelijk om bestaande praktijken in lokalisatietaken, zoals detectie en segmentatie, te benutten. In scenario's met beperkte middelen toont onze pixel2emb superieure prestaties in vergelijking met bestaande state-of-the-art (SOTA) benaderingen, zowel in locatie-invoer- als uitvoertaken onder eerlijke vergelijking. Door gebruik te maken van de voorgestelde pixel2emb-methode, trainen we een LMM genaamd NExT-Chat en demonstreren we de mogelijkheid om meerdere taken aan te kunnen, zoals visuele verankering, regiobeschrijving en gegrond redeneren.
English
The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.