NExT-Chat: Een LMM voor Chat, Detectie en Segmentatie

Samenvatting

De ontwikkeling van grote taalmodelen (LLMs) heeft het vakgebied van multimodale begripsvorming aanzienlijk vooruitgebracht, wat heeft geleid tot de opkomst van grote multimodale modellen (LMMs). Om het niveau van visueel begrip te verbeteren, hebben recente studies LMMs uitgerust met begripscapaciteiten op regioniveau door de coördinaten van objectbegrenzingsvakken weer te geven als een reeks tekstsequenties (pixel2seq). In dit artikel introduceren we een nieuw paradigma voor het modelleren van objectlocaties, genaamd de pixel2emb-methode, waarbij we het LMM vragen om locatie-embeddingen uit te voeren die vervolgens worden gedecodeerd door verschillende decoders. Dit paradigma maakt het mogelijk om verschillende locatieformaten (zoals begrenzingsvakken en maskers) te gebruiken in multimodale gesprekken. Bovendien maakt dit soort op embedding gebaseerde locatiemodellering het mogelijk om bestaande praktijken in lokalisatietaken, zoals detectie en segmentatie, te benutten. In scenario's met beperkte middelen toont onze pixel2emb superieure prestaties in vergelijking met bestaande state-of-the-art (SOTA) benaderingen, zowel in locatie-invoer- als uitvoertaken onder eerlijke vergelijking. Door gebruik te maken van de voorgestelde pixel2emb-methode, trainen we een LMM genaamd NExT-Chat en demonstreren we de mogelijkheid om meerdere taken aan te kunnen, zoals visuele verankering, regiobeschrijving en gegrond redeneren.

English

The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.

NExT-Chat: Een LMM voor Chat, Detectie en Segmentatie

NExT-Chat: An LMM for Chat, Detection and Segmentation

Samenvatting

Support