NExT-Chat : Un modèle de langage multimodal pour le dialogue, la détection et la segmentation
NExT-Chat: An LMM for Chat, Detection and Segmentation
November 8, 2023
Auteurs: Ao Zhang, Liming Zhao, Chen-Wei Xie, Yun Zheng, Wei Ji, Tat-Seng Chua
cs.AI
Résumé
Le développement des grands modèles de langage (LLMs) a considérablement fait progresser le domaine de la compréhension multimodale, conduisant à l'émergence de grands modèles multimodaux (LMMs). Afin d'améliorer le niveau de compréhension visuelle, des études récentes ont doté les LMMs de capacités de compréhension au niveau des régions en représentant les coordonnées des boîtes englobantes des objets sous forme de séquences textuelles (pixel2seq). Dans cet article, nous introduisons un nouveau paradigme pour la modélisation de la localisation des objets, appelé méthode pixel2emb, où nous demandons au LMM de produire des embeddings de localisation qui sont ensuite décodés par différents décodeurs. Ce paradigme permet l'utilisation de différents formats de localisation (tels que les boîtes englobantes et les masques) dans les conversations multimodales. De plus, ce type de modélisation de localisation basée sur les embeddings permet d'exploiter les pratiques existantes dans les tâches de localisation, telles que la détection et la segmentation. Dans des scénarios à ressources limitées, notre méthode pixel2emb démontre des performances supérieures par rapport aux approches de pointe (SOTA) existantes, tant dans les tâches d'entrée que de sortie de localisation, dans des conditions de comparaison équitables. En exploitant la méthode pixel2emb proposée, nous entraînons un LMM nommé NExT-Chat et démontrons sa capacité à gérer plusieurs tâches telles que l'ancrage visuel, la description de région et le raisonnement ancré.
English
The development of large language models (LLMs) has greatly advanced the
field of multimodal understanding, leading to the emergence of large multimodal
models (LMMs). In order to enhance the level of visual comprehension, recent
studies have equipped LMMs with region-level understanding capabilities by
representing object bounding box coordinates as a series of text sequences
(pixel2seq). In this paper, we introduce a novel paradigm for object location
modeling called pixel2emb method, where we ask the LMM to output the location
embeddings and then decoded by different decoders. This paradigm allows for
different location formats (such as bounding boxes and masks) to be used in
multimodal conversations Furthermore, this kind of embedding based location
modeling enables the utilization of existing practices in localization tasks,
such as detection and segmentation. In scenarios with limited resources, our
pixel2emb demonstrates superior performance compared to existing
state-of-the-art (SOTA) approaches in both the location input and output tasks
under fair comparison. Leveraging the proposed pixel2emb method, we train an
LMM named NExT-Chat and demonstrate its capability of handling multiple tasks
like visual grounding, region caption, and grounded reasoning.