BuboGPT: Habilitando o Aterramento Visual em LLMs Multimodais

Resumo

Os LLMs (Modelos de Linguagem de Grande Escala) demonstraram habilidades notáveis na interação com humanos por meio da linguagem, especialmente com o uso de dados de seguimento de instruções. Avanços recentes em LLMs, como MiniGPT-4, LLaVA e X-LLM, ampliam ainda mais suas capacidades ao incorporar entradas multimodais, incluindo imagens, vídeos e fala. Apesar de sua eficácia na geração de compreensão precisa e detalhada da linguagem para o sinal modal fornecido, esses LLMs abrem mão da capacidade de fundamentar partes específicas das entradas, construindo apenas um mapeamento de granularidade grossa. No entanto, uma correspondência explícita e informativa entre texto e outras modalidades não apenas melhorará a experiência do usuário, mas também ajudará a expandir o cenário de aplicação dos LLMs multimodais. Portanto, propomos o BuboGPT, um LLM multimodal com fundamentação visual que pode realizar interação cruzada entre visão, áudio e linguagem, fornecendo uma compreensão refinada de objetos visuais e outras modalidades fornecidas. Como resultado, o BuboGPT é capaz de apontar a localização específica de um objeto na imagem ao gerar uma resposta ou descrição para esse objeto. Nossas contribuições são duplas: 1) Um módulo de fundamentação visual pronto para uso, baseado no SAM, que extrai entidades em uma frase e encontra máscaras correspondentes na imagem. 2) Um esquema de treinamento em duas etapas e um conjunto de dados de instrução para dotar o modelo de compreensão conjunta de texto, imagem e áudio. Nossos experimentos mostram que o BuboGPT alcança uma compreensão multimodal impressionante e habilidades de fundamentação visual durante a interação com humanos. Ele se sai consistentemente bem quando fornecido com combinações arbitrárias de modalidades (alinhadas ou não alinhadas). Nosso código, modelo e conjunto de dados estão disponíveis em https://bubo-gpt.github.io.

English

LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .

BuboGPT: Habilitando o Aterramento Visual em LLMs Multimodais

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Resumo

Support