BuboGPT: Ermöglichung visueller Verankerung in multimodalen LLMs

Zusammenfassung

LLMs haben bemerkenswerte Fähigkeiten bei der Interaktion mit Menschen durch Sprache gezeigt, insbesondere durch die Verwendung von Anweisungsfolgedaten. Jüngste Fortschritte bei LLMs, wie MiniGPT-4, LLaVA und X-LLM, erweitern ihre Fähigkeiten weiter, indem sie multimodale Eingaben wie Bilder, Videos und Sprache integrieren. Trotz ihrer Effektivität bei der Erzeugung präziser und detaillierter Sprachverständnisse der gegebenen Modalsignale verzichten diese LLMs auf die Fähigkeit, spezifische Teile der Eingaben zu verankern, und konstruieren somit nur eine grobkörnige Abbildung. Eine explizite und informative Korrespondenz zwischen Text und anderen Modalitäten würde jedoch nicht nur die Benutzererfahrung verbessern, sondern auch das Anwendungsszenario multimodaler LLMs erweitern. Daher schlagen wir BuboGPT vor, ein multimodales LLM mit visueller Verankerung, das eine cross-modale Interaktion zwischen Vision, Audio und Sprache durchführen kann und ein feinkörniges Verständnis von visuellen Objekten und anderen gegebenen Modalitäten bietet. Dadurch ist BuboGPT in der Lage, die spezifische Position eines Objekts im Bild zu zeigen, wenn es eine Antwort oder Beschreibung für dieses Objekt generiert. Unsere Beiträge sind zweifach: 1) Ein gebrauchsfertiges visuelles Verankerungsmodul basierend auf SAM, das Entitäten in einem Satz extrahiert und entsprechende Masken im Bild findet. 2) Ein zweistufiges Trainingsschema und ein Anweisungsdatensatz, um ein gemeinsames Text-Bild-Audio-Verständnis zu ermöglichen. Unsere Experimente zeigen, dass BuboGPT während der Interaktion mit dem Menschen beeindruckende multimodale Verständnis- und visuelle Verankerungsfähigkeiten erreicht. Es schneidet durchweg gut ab, wenn es mit beliebigen Modalitätskombinationen (entweder ausgerichtet oder nicht ausgerichtet) versorgt wird. Unser Code, Modell und Datensatz sind verfügbar unter https://bubo-gpt.github.io.

English

LLMs have demonstrated remarkable abilities at interacting with humans through language, especially with the usage of instruction-following data. Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further enlarge their abilities by incorporating multi-modal inputs, including image, video, and speech. Despite their effectiveness at generating precise and detailed language understanding of the given modality signal, these LLMs give up the ability to ground specific parts of inputs, thus only constructing a coarse-grained mapping. However, explicit and informative correspondence between text and other modalities will not only improve the user experience but also help to expand the application scenario of multi-modal LLMs. Therefore, we propose BuboGPT, a multi-modal LLM with visual grounding that can perform cross-modal interaction between vision, audio and language, providing fine-grained understanding of visual objects and other given modalities. As a result, BuboGPT is able to point out the specific location of an object in the image, when it is generating response or description for that object. Our contributions are two-fold: 1) An off-the-shelf visual grounding module based on SAM that extracts entities in a sentence and find corresponding masks in the image. 2) A two-stage training scheme and instruction dataset to endow joint text-image-audio understanding. Our experiments show that BuboGPT achieves impressive multi-modality understanding and visual grounding abilities during the interaction with human. It performs consistently well when provided by arbitrary modality combinations (either aligned or unaligned). Our code, model and dataset are available at https://bubo-gpt.github.io .

BuboGPT: Ermöglichung visueller Verankerung in multimodalen LLMs

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Zusammenfassung

Support