ChatPaper.aiChatPaper

LLaVA-Grounding: Diálogo Visual Fundamentado com Modelos Multimodais de Grande Escala

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

December 5, 2023
Autores: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI

Resumo

Com os recentes avanços significativos em modelos multimodais de grande escala (LMMs), a importância de sua capacidade de ancoragem em chats visuais tem sido cada vez mais reconhecida. Apesar dos esforços recentes para permitir que os LMMs suportem ancoragem, suas capacidades para ancoragem e chat geralmente são separadas, e seu desempenho no chat cai drasticamente quando solicitados a ancorar. O problema é a falta de um conjunto de dados para chat visual ancorado (GVC). Os conjuntos de dados de ancoragem existentes contêm apenas legendas curtas. Para resolver essa questão, criamos dados GVC que permitem a combinação das capacidades de ancoragem e chat. Para avaliar melhor as capacidades GVC, introduzimos um benchmark chamado Grounding-Bench. Além disso, propusemos um design de modelo que pode suportar GVC e vários tipos de prompts visuais, conectando modelos de segmentação com modelos de linguagem. Os resultados experimentais demonstram que nosso modelo supera outros LMMs no Grounding-Bench. Além disso, nosso modelo alcança desempenho competitivo em benchmarks clássicos de ancoragem, como RefCOCO/+/g e Flickr30K Entities. Nosso código será liberado em https://github.com/UX-Decoder/LLaVA-Grounding.
English
With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
PDF140February 7, 2026