BuboGPT: Обеспечение визуального заземления в мультимодальных языковых моделях
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
July 17, 2023
Авторы: Yang Zhao, Zhijie Lin, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности к взаимодействию с людьми через язык, особенно с использованием данных, ориентированных на выполнение инструкций. Последние достижения в области LLM, такие как MiniGPT-4, LLaVA и X-LLM, расширяют их возможности за счет включения мультимодальных входных данных, включая изображения, видео и речь. Несмотря на их эффективность в генерации точного и детального понимания языка на основе заданного модального сигнала, эти LLM отказываются от способности привязывать конкретные части входных данных, создавая лишь грубую карту соответствий. Однако явное и информативное соответствие между текстом и другими модальностями не только улучшит пользовательский опыт, но и поможет расширить сценарии применения мультимодальных LLM. Поэтому мы предлагаем BuboGPT — мультимодальную LLM с визуальной привязкой, способную выполнять кросс-модальное взаимодействие между зрением, аудио и языком, обеспечивая детальное понимание визуальных объектов и других заданных модальностей. В результате BuboGPT может указывать конкретное местоположение объекта на изображении при генерации ответа или описания для этого объекта. Наш вклад заключается в следующем: 1) Готовый модуль визуальной привязки на основе SAM, который извлекает сущности в предложении и находит соответствующие маски на изображении. 2) Двухэтапная схема обучения и набор инструкций для обеспечения совместного понимания текста, изображений и аудио. Наши эксперименты показывают, что BuboGPT демонстрирует впечатляющие способности к мультимодальному пониманию и визуальной привязке во время взаимодействия с человеком. Модель стабильно хорошо работает при предоставлении произвольных комбинаций модальностей (как согласованных, так и несогласованных). Наш код, модель и набор данных доступны по адресу https://bubo-gpt.github.io.
English
LLMs have demonstrated remarkable abilities at interacting with humans
through language, especially with the usage of instruction-following data.
Recent advancements in LLMs, such as MiniGPT-4, LLaVA, and X-LLM, further
enlarge their abilities by incorporating multi-modal inputs, including image,
video, and speech. Despite their effectiveness at generating precise and
detailed language understanding of the given modality signal, these LLMs give
up the ability to ground specific parts of inputs, thus only constructing a
coarse-grained mapping. However, explicit and informative correspondence
between text and other modalities will not only improve the user experience but
also help to expand the application scenario of multi-modal LLMs. Therefore, we
propose BuboGPT, a multi-modal LLM with visual grounding that can perform
cross-modal interaction between vision, audio and language, providing
fine-grained understanding of visual objects and other given modalities. As a
result, BuboGPT is able to point out the specific location of an object in the
image, when it is generating response or description for that object. Our
contributions are two-fold: 1) An off-the-shelf visual grounding module based
on SAM that extracts entities in a sentence and find corresponding masks in the
image. 2) A two-stage training scheme and instruction dataset to endow joint
text-image-audio understanding. Our experiments show that BuboGPT achieves
impressive multi-modality understanding and visual grounding abilities during
the interaction with human. It performs consistently well when provided by
arbitrary modality combinations (either aligned or unaligned). Our code, model
and dataset are available at https://bubo-gpt.github.io .