NExT-Chat : Un modèle de langage multimodal pour le dialogue, la détection et la segmentation

papers.abstract

Le développement des grands modèles de langage (LLMs) a considérablement fait progresser le domaine de la compréhension multimodale, conduisant à l'émergence de grands modèles multimodaux (LMMs). Afin d'améliorer le niveau de compréhension visuelle, des études récentes ont doté les LMMs de capacités de compréhension au niveau des régions en représentant les coordonnées des boîtes englobantes des objets sous forme de séquences textuelles (pixel2seq). Dans cet article, nous introduisons un nouveau paradigme pour la modélisation de la localisation des objets, appelé méthode pixel2emb, où nous demandons au LMM de produire des embeddings de localisation qui sont ensuite décodés par différents décodeurs. Ce paradigme permet l'utilisation de différents formats de localisation (tels que les boîtes englobantes et les masques) dans les conversations multimodales. De plus, ce type de modélisation de localisation basée sur les embeddings permet d'exploiter les pratiques existantes dans les tâches de localisation, telles que la détection et la segmentation. Dans des scénarios à ressources limitées, notre méthode pixel2emb démontre des performances supérieures par rapport aux approches de pointe (SOTA) existantes, tant dans les tâches d'entrée que de sortie de localisation, dans des conditions de comparaison équitables. En exploitant la méthode pixel2emb proposée, nous entraînons un LMM nommé NExT-Chat et démontrons sa capacité à gérer plusieurs tâches telles que l'ancrage visuel, la description de région et le raisonnement ancré.

English

The development of large language models (LLMs) has greatly advanced the field of multimodal understanding, leading to the emergence of large multimodal models (LMMs). In order to enhance the level of visual comprehension, recent studies have equipped LMMs with region-level understanding capabilities by representing object bounding box coordinates as a series of text sequences (pixel2seq). In this paper, we introduce a novel paradigm for object location modeling called pixel2emb method, where we ask the LMM to output the location embeddings and then decoded by different decoders. This paradigm allows for different location formats (such as bounding boxes and masks) to be used in multimodal conversations Furthermore, this kind of embedding based location modeling enables the utilization of existing practices in localization tasks, such as detection and segmentation. In scenarios with limited resources, our pixel2emb demonstrates superior performance compared to existing state-of-the-art (SOTA) approaches in both the location input and output tasks under fair comparison. Leveraging the proposed pixel2emb method, we train an LMM named NExT-Chat and demonstrate its capability of handling multiple tasks like visual grounding, region caption, and grounded reasoning.

NExT-Chat : Un modèle de langage multimodal pour le dialogue, la détection et la segmentation

NExT-Chat: An LMM for Chat, Detection and Segmentation

papers.abstract

Support