LLaVA-Grounding: Verankertes visuelles Chatten mit großen multimodalen Modellen
LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models
December 5, 2023
Autoren: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI
Zusammenfassung
Mit den jüngsten bedeutenden Fortschritten bei großen multimodalen Modellen (LMMs) wird die Bedeutung ihrer Verankerungsfähigkeit im visuellen Chat zunehmend erkannt. Trotz aktueller Bemühungen, LMMs die Unterstützung von Verankerung zu ermöglichen, sind ihre Fähigkeiten für Verankerung und Chat meist getrennt, und ihre Chat-Leistung sinkt dramatisch, wenn sie zur Verankerung aufgefordert werden. Das Problem ist das Fehlen eines Datensatzes für verankerten visuellen Chat (GVC). Bestehende Verankerungsdatensätze enthalten nur kurze Beschreibungen. Um dieses Problem zu lösen, haben wir GVC-Daten erstellt, die die Kombination von Verankerungs- und Chat-Fähigkeiten ermöglichen. Um die GVC-Fähigkeiten besser zu bewerten, haben wir einen Benchmark namens Grounding-Bench eingeführt. Zusätzlich haben wir ein Modelldesign vorgeschlagen, das GVC und verschiedene Arten von visuellen Prompts unterstützen kann, indem Segmentierungsmodelle mit Sprachmodellen verbunden werden. Experimentelle Ergebnisse zeigen, dass unser Modell andere LMMs auf Grounding-Bench übertrifft. Darüber hinaus erzielt unser Modell eine wettbewerbsfähige Leistung auf klassischen Verankerungs-Benchmarks wie RefCOCO/+/g und Flickr30K Entities. Unser Code wird unter https://github.com/UX-Decoder/LLaVA-Grounding veröffentlicht.
English
With the recent significant advancements in large multi-modal models (LMMs),
the importance of their grounding capability in visual chat is increasingly
recognized. Despite recent efforts to enable LMMs to support grounding, their
capabilities for grounding and chat are usually separate, and their chat
performance drops dramatically when asked to ground. The problem is the lack of
a dataset for grounded visual chat (GVC). Existing grounding datasets only
contain short captions. To address this issue, we have created GVC data that
allows for the combination of grounding and chat capabilities. To better
evaluate the GVC capabilities, we have introduced a benchmark called
Grounding-Bench. Additionally, we have proposed a model design that can support
GVC and various types of visual prompts by connecting segmentation models with
language models. Experimental results demonstrate that our model outperforms
other LMMs on Grounding-Bench. Furthermore, our model achieves competitive
performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K
Entities. Our code will be released at
https://github.com/UX-Decoder/LLaVA-Grounding .