NExT-Chat: Un modello linguistico multimodale per chat, rilevamento e segmentazione

Abstract

Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) ha notevolmente avanzato il campo della comprensione multimodale, portando all'emergere di grandi modelli multimodali (LMM). Per migliorare il livello di comprensione visiva, studi recenti hanno dotato gli LMM di capacità di comprensione a livello di regione, rappresentando le coordinate dei bounding box degli oggetti come una serie di sequenze testuali (pixel2seq). In questo articolo, introduciamo un nuovo paradigma per la modellazione della posizione degli oggetti chiamato metodo pixel2emb, in cui chiediamo all'LMM di produrre gli embedding di posizione, che vengono poi decodificati da diversi decoder. Questo paradigma consente l'uso di diversi formati di posizione (come bounding box e maschere) nelle conversazioni multimodali. Inoltre, questo tipo di modellazione della posizione basata su embedding permette di sfruttare le pratiche esistenti nei compiti di localizzazione, come il rilevamento e la segmentazione. In scenari con risorse limitate, il nostro pixel2emb dimostra prestazioni superiori rispetto agli approcci all'avanguardia (SOTA) esistenti sia nei compiti di input che di output della posizione, in un confronto equo. Sfruttando il metodo pixel2emb proposto, addestriamo un LMM denominato NExT-Chat e dimostriamo la sua capacità di gestire più compiti come il grounding visivo, la descrizione di regioni e il ragionamento basato su grounding.

English

The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.

NExT-Chat: Un modello linguistico multimodale per chat, rilevamento e segmentazione

NExT-Chat: An LMM for Chat, Detection and Segmentation

Abstract

Support