ChatPaper.aiChatPaper

BuboGPT: Habilitando la Conexión Visual en Modelos de Lenguaje Multimodales

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

July 17, 2023
Autores: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI

Resumen

Los LLM han demostrado habilidades notables para interactuar con los humanos a través del lenguaje, especialmente con el uso de datos de seguimiento de instrucciones. Los avances recientes en LLM, como MiniGPT-4, LLaVA y X-LLM, amplían aún más sus capacidades al incorporar entradas multimodales, incluyendo imágenes, videos y audio. A pesar de su eficacia para generar un entendimiento lingüístico preciso y detallado de la señal modal dada, estos LLM renuncian a la capacidad de anclar partes específicas de las entradas, construyendo así solo un mapeo de grano grueso. Sin embargo, una correspondencia explícita e informativa entre el texto y otras modalidades no solo mejorará la experiencia del usuario, sino que también ayudará a expandir el escenario de aplicación de los LLM multimodales. Por lo tanto, proponemos BuboGPT, un LLM multimodal con anclaje visual que puede realizar interacción cruzada entre visión, audio y lenguaje, proporcionando un entendimiento de grano fino de objetos visuales y otras modalidades dadas. Como resultado, BuboGPT es capaz de señalar la ubicación específica de un objeto en la imagen cuando genera una respuesta o descripción para ese objeto. Nuestras contribuciones son dobles: 1) Un módulo de anclaje visual listo para usar basado en SAM que extrae entidades en una oración y encuentra las máscaras correspondientes en la imagen. 2) Un esquema de entrenamiento en dos etapas y un conjunto de datos de instrucciones para dotar de un entendimiento conjunto de texto-imagen-audio. Nuestros experimentos muestran que BuboGPT logra una impresionante comprensión multimodal y habilidades de anclaje visual durante la interacción con humanos. Funciona consistentemente bien cuando se le proporcionan combinaciones arbitrarias de modalidades (ya sean alineadas o no alineadas). Nuestro código, modelo y conjunto de datos están disponibles en https://bubo-gpt.github.io.
English
LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .
PDF280December 15, 2024