BuboGPT : Intégration de l'ancrage visuel dans les modèles de langage multi-modaux
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
July 17, 2023
Auteurs: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Résumé
Les LLM (modèles de langage de grande taille) ont démontré des capacités remarquables pour interagir avec les humains par le biais du langage, en particulier grâce à l'utilisation de données d'instruction. Les avancées récentes dans les LLM, telles que MiniGPT-4, LLaVA et X-LLM, élargissent encore leurs capacités en intégrant des entrées multimodales, incluant des images, des vidéos et de la parole. Bien qu'ils soient efficaces pour générer une compréhension précise et détaillée du signal modal donné, ces LLM renoncent à la capacité d'ancrer des parties spécifiques des entrées, ne construisant ainsi qu'une cartographie grossière. Cependant, une correspondance explicite et informative entre le texte et les autres modalités améliorera non seulement l'expérience utilisateur, mais contribuera également à élargir les scénarios d'application des LLM multimodaux. Par conséquent, nous proposons BuboGPT, un LLM multimodal avec ancrage visuel capable d'effectuer une interaction intermodale entre la vision, l'audio et le langage, offrant une compréhension fine des objets visuels et des autres modalités données. En conséquence, BuboGPT est capable de pointer l'emplacement spécifique d'un objet dans l'image lorsqu'il génère une réponse ou une description pour cet objet. Nos contributions sont doubles : 1) Un module d'ancrage visuel prêt à l'emploi basé sur SAM qui extrait les entités dans une phrase et trouve les masques correspondants dans l'image. 2) Un schéma d'entraînement en deux étapes et un jeu de données d'instruction pour doter le modèle d'une compréhension conjointe texte-image-audio. Nos expériences montrent que BuboGPT atteint une compréhension multimodale et des capacités d'ancrage visuel impressionnantes lors de l'interaction avec l'humain. Il performe de manière constante lorsqu'il est alimenté par des combinaisons de modalités arbitraires (alignées ou non alignées). Notre code, modèle et jeu de données sont disponibles à l'adresse https://bubo-gpt.github.io.
English
LLMs have demonstrated remarkable abilities at interacting with humans
through language, especially with the usage of instruction-following data.
Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further
enlarge their abilities by incorporating multi-modal inputs, including image,
video, and speech. Despite their effectiveness at generating precise and
detailed language understanding of the given modality signal, these LLMs give
up the ability to ground specific parts of inputs, thus only constructing a
coarse-grained mapping. However, explicit and informative correspondence
between text and other modalities will not only improve the user experience but
also help to expand the application scenario of multi-modal LLMs. Therefore, we
propose BuboGPT, a multi-modal LLM with visual grounding that can perform
cross-modal interaction between vision, audio and language, providing
fine-grained understanding of visual objects and other given modalities. As a
result, BuboGPT is able to point out the specific location of an object in the
image, when it is generating response or description for that object. Our
contributions are two-fold: 1) An off-the-shelf visual grounding module based
on SAM that extracts entities in a sentence and find corresponding masks in the
image. 2) A two-stage training scheme and instruction dataset to endow joint
text-image-audio understanding. Our experiments show that BuboGPT achieves
impressive multi-modality understanding and visual grounding abilities during
the interaction with human. It performs consistently well when provided by
arbitrary modality combinations (either aligned or unaligned). Our code, model
and dataset are available at https://bubo-gpt.github.io .