ChatPaper.aiChatPaper

LLaVA-Grounding: Chat Visual Fundamentado con Modelos Multimodales de Gran Escala

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

December 5, 2023
Autores: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI

Resumen

Con los recientes avances significativos en los modelos multimodales de gran escala (LMMs), la importancia de su capacidad de anclaje en el chat visual es cada vez más reconocida. A pesar de los esfuerzos recientes para permitir que los LMMs admitan el anclaje, sus capacidades para el anclaje y el chat suelen estar separadas, y su rendimiento en el chat disminuye drásticamente cuando se les pide que realicen anclajes. El problema radica en la falta de un conjunto de datos para el chat visual anclado (GVC). Los conjuntos de datos de anclaje existentes solo contienen descripciones breves. Para abordar este problema, hemos creado datos GVC que permiten la combinación de capacidades de anclaje y chat. Para evaluar mejor las capacidades de GVC, hemos introducido un punto de referencia llamado Grounding-Bench. Además, hemos propuesto un diseño de modelo que puede admitir GVC y varios tipos de indicaciones visuales mediante la conexión de modelos de segmentación con modelos de lenguaje. Los resultados experimentales demuestran que nuestro modelo supera a otros LMMs en Grounding-Bench. Además, nuestro modelo logra un rendimiento competitivo en puntos de referencia clásicos de anclaje como RefCOCO/+/g y Flickr30K Entities. Nuestro código se publicará en https://github.com/UX-Decoder/LLaVA-Grounding.
English
With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
PDF150December 15, 2024