LLaVA-Grounding: Основанный на визуальных данных чат с использованием крупных мультимодальных моделей
LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
December 5, 2023
Авторы: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI
Аннотация
С учетом недавних значительных достижений в области крупных мультимодальных моделей (LMMs), важность их способности к заземлению в визуальном чате становится все более очевидной. Несмотря на недавние усилия по обеспечению поддержки заземления в LMMs, их возможности для заземления и чата обычно разделены, и производительность чата резко снижается, когда требуется заземление. Проблема заключается в отсутствии набора данных для заземленного визуального чата (GVC). Существующие наборы данных для заземления содержат только короткие подписи. Для решения этой проблемы мы создали данные GVC, которые позволяют сочетать возможности заземления и чата. Для более точной оценки возможностей GVC мы представили эталонный тест под названием Grounding-Bench. Кроме того, мы предложили архитектуру модели, которая может поддерживать GVC и различные типы визуальных подсказок, соединяя модели сегментации с языковыми моделями. Экспериментальные результаты показывают, что наша модель превосходит другие LMMs на Grounding-Bench. Более того, наша модель демонстрирует конкурентоспособные результаты на классических эталонных тестах для заземления, таких как RefCOCO/+/g и Flickr30K Entities. Наш код будет доступен по адресу https://github.com/UX-Decoder/LLaVA-Grounding.
English
With the recent significant advancements in large multi-modal models (LMMs),
the importance of their grounding capability in visual chat is increasingly
recognized. Despite recent efforts to enable LMMs to support grounding, their
capabilities for grounding and chat are usually separate, and their chat
performance drops dramatically when asked to ground. The problem is the lack of
a dataset for grounded visual chat (GVC). Existing grounding datasets only
contain short captions. To address this issue, we have created GVC data that
allows for the combination of grounding and chat capabilities. To better
evaluate the GVC capabilities, we have introduced a benchmark called
Grounding-Bench. Additionally, we have proposed a model design that can support
GVC and various types of visual prompts by connecting segmentation models with
language models. Experimental results demonstrate that our model outperforms
other LMMs on Grounding-Bench. Furthermore, our model achieves competitive
performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K
Entities. Our code will be released at
https://github.com/UX-Decoder/LLaVA-Grounding .