ChatPaper.aiChatPaper

LLaVA-Grounding: Gegrond Visueel Chatten met Grote Multimodale Modellen

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

December 5, 2023
Auteurs: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI

Samenvatting

Met de recente significante vooruitgang in grote multimodale modellen (LMMs) wordt het belang van hun verankeringsvermogen in visuele chat steeds meer erkend. Ondanks recente inspanningen om LMMs in staat te stellen verankering te ondersteunen, zijn hun mogelijkheden voor verankering en chat meestal gescheiden, en daalt hun chatprestatie aanzienlijk wanneer ze worden gevraagd om te verankeren. Het probleem is het ontbreken van een dataset voor verankerde visuele chat (GVC). Bestaande verankeringsdatasets bevatten alleen korte bijschriften. Om dit probleem aan te pakken, hebben we GVC-data gecreëerd die de combinatie van verankerings- en chatmogelijkheden mogelijk maakt. Om de GVC-mogelijkheden beter te evalueren, hebben we een benchmark geïntroduceerd genaamd Grounding-Bench. Daarnaast hebben we een modelontwerp voorgesteld dat GVC en verschillende soorten visuele prompts kan ondersteunen door segmentatiemodellen te verbinden met taalmodellen. Experimentele resultaten tonen aan dat ons model andere LMMs overtreft op Grounding-Bench. Bovendien behaalt ons model competitieve prestaties op klassieke verankeringsbenchmarks zoals RefCOCO/+/g en Flickr30K Entities. Onze code zal worden vrijgegeven op https://github.com/UX-Decoder/LLaVA-Grounding.
English
With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
PDF140February 7, 2026