BuboGPT: Visuele Verankering Mogelijk Maken in Multi-Modale LLM's
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
July 17, 2023
Auteurs: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Samenvatting
LLM's hebben opmerkelijke vaardigheden getoond in het omgaan met mensen via taal, vooral met het gebruik van instructievolgende gegevens. Recente vooruitgang in LLM's, zoals MiniGPT-4, LLaVA en X-LLM, vergroot hun mogelijkheden verder door het integreren van multimodale invoer, waaronder afbeeldingen, video en spraak. Ondanks hun effectiviteit in het genereren van nauwkeurige en gedetailleerde taalbegrip van het gegeven modale signaal, geven deze LLM's de mogelijkheid op om specifieke delen van de invoer te verankeren, waardoor slechts een grofkorrelige mapping wordt geconstrueerd. Echter, expliciete en informatieve correspondentie tussen tekst en andere modaliteiten zal niet alleen de gebruikerservaring verbeteren, maar ook helpen bij het uitbreiden van de toepassingsscenario's van multimodale LLM's. Daarom stellen we BuboGPT voor, een multimodale LLM met visuele verankering die kruismodale interactie tussen visie, audio en taal kan uitvoeren, en een fijnkorrelig begrip biedt van visuele objecten en andere gegeven modaliteiten. Als gevolg hiervan is BuboGPT in staat om de specifieke locatie van een object in de afbeelding aan te wijzen, wanneer het een reactie of beschrijving voor dat object genereert. Onze bijdragen zijn tweeledig: 1) Een kant-en-klare visuele verankeringsmodule gebaseerd op SAM die entiteiten in een zin extraheert en bijbehorende maskers in de afbeelding vindt. 2) Een tweefasen trainingsschema en instructiedataset om gezamenlijk tekst-afbeelding-audio begrip te verlenen. Onze experimenten tonen aan dat BuboGPT indrukwekkende multimodale begrip en visuele verankeringsvaardigheden bereikt tijdens de interactie met mensen. Het presteert consistent goed wanneer het wordt voorzien van willekeurige modaliteitscombinaties (zowel uitgelijnd als niet-uitgelijnd). Onze code, model en dataset zijn beschikbaar op https://bubo-gpt.github.io.
English
LLMs have demonstrated remarkable abilities at interacting with humans
through language, especially with the usage of instruction-following data.
Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further
enlarge their abilities by incorporating multi-modal inputs, including image,
video, and speech. Despite their effectiveness at generating precise and
detailed language understanding of the given modality signal, these LLMs give
up the ability to ground specific parts of inputs, thus only constructing a
coarse-grained mapping. However, explicit and informative correspondence
between text and other modalities will not only improve the user experience but
also help to expand the application scenario of multi-modal LLMs. Therefore, we
propose BuboGPT, a multi-modal LLM with visual grounding that can perform
cross-modal interaction between vision, audio and language, providing
fine-grained understanding of visual objects and other given modalities. As a
result, BuboGPT is able to point out the specific location of an object in the
image, when it is generating response or description for that object. Our
contributions are two-fold: 1) An off-the-shelf visual grounding module based
on SAM that extracts entities in a sentence and find corresponding masks in the
image. 2) A two-stage training scheme and instruction dataset to endow joint
text-image-audio understanding. Our experiments show that BuboGPT achieves
impressive multi-modality understanding and visual grounding abilities during
the interaction with human. It performs consistently well when provided by
arbitrary modality combinations (either aligned or unaligned). Our code, model
and dataset are available at https://bubo-gpt.github.io .