BuboGPT: Abilitare il Grounding Visivo nei Modelli Linguistici Multi-Modali
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
July 17, 2023
Autori: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Abstract
I LLM hanno dimostrato capacità straordinarie nell'interagire con gli esseri umani attraverso il linguaggio, in particolare grazie all'utilizzo di dati per il seguimento di istruzioni. I recenti progressi nei LLM, come MiniGPT-4, LLaVA e X-LLM, ampliano ulteriormente le loro capacità incorporando input multimodali, tra cui immagini, video e audio. Nonostante la loro efficacia nel generare una comprensione linguistica precisa e dettagliata del segnale modale fornito, questi LLM rinunciano alla capacità di ancorare parti specifiche degli input, costruendo così solo una mappatura a grana grossa. Tuttavia, una corrispondenza esplicita e informativa tra testo e altre modalità non solo migliorerebbe l'esperienza utente, ma aiuterebbe anche ad ampliare gli scenari applicativi dei LLM multimodali. Pertanto, proponiamo BuboGPT, un LLM multimodale con ancoraggio visivo in grado di eseguire un'interazione cross-modale tra visione, audio e linguaggio, fornendo una comprensione fine degli oggetti visivi e delle altre modalità date. Di conseguenza, BuboGPT è in grado di indicare la posizione specifica di un oggetto nell'immagine mentre genera una risposta o una descrizione per quell'oggetto. I nostri contributi sono duplici: 1) Un modulo di ancoraggio visivo pronto all'uso basato su SAM che estrae le entità in una frase e trova le maschere corrispondenti nell'immagine. 2) Uno schema di addestramento in due fasi e un dataset di istruzioni per conferire una comprensione congiunta di testo, immagini e audio. I nostri esperimenti dimostrano che BuboGPT raggiunge impressionanti capacità di comprensione multimodale e ancoraggio visivo durante l'interazione con l'uomo. Si comporta in modo costantemente efficace quando viene fornito con combinazioni arbitrarie di modalità (allineate o non allineate). Il nostro codice, modello e dataset sono disponibili su https://bubo-gpt.github.io.
English
LLMs have demonstrated remarkable abilities at interacting with humans
through language, especially with the usage of instruction-following data.
Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further
enlarge their abilities by incorporating multi-modal inputs, including image,
video, and speech. Despite their effectiveness at generating precise and
detailed language understanding of the given modality signal, these LLMs give
up the ability to ground specific parts of inputs, thus only constructing a
coarse-grained mapping. However, explicit and informative correspondence
between text and other modalities will not only improve the user experience but
also help to expand the application scenario of multi-modal LLMs. Therefore, we
propose BuboGPT, a multi-modal LLM with visual grounding that can perform
cross-modal interaction between vision, audio and language, providing
fine-grained understanding of visual objects and other given modalities. As a
result, BuboGPT is able to point out the specific location of an object in the
image, when it is generating response or description for that object. Our
contributions are two-fold: 1) An off-the-shelf visual grounding module based
on SAM that extracts entities in a sentence and find corresponding masks in the
image. 2) A two-stage training scheme and instruction dataset to endow joint
text-image-audio understanding. Our experiments show that BuboGPT achieves
impressive multi-modality understanding and visual grounding abilities during
the interaction with human. It performs consistently well when provided by
arbitrary modality combinations (either aligned or unaligned). Our code, model
and dataset are available at https://bubo-gpt.github.io .