ChatPaper.aiChatPaper

LLaVA-Grounding : Dialogue Visuel Ancré avec des Modèles Multimodaux de Grande Taille

LLaVA-Grounding: Grounded Visual Chat with Large Multimodal Models

December 5, 2023
papers.authors: Hao Zhang, Hongyang Li, Feng Li, Tianhe Ren, Xueyan Zou, Shilong Liu, Shijia Huang, Jianfeng Gao, Lei Zhang, Chunyuan Li, Jianwei Yang
cs.AI

papers.abstract

Avec les récents progrès significatifs des grands modèles multimodaux (LMMs), l'importance de leur capacité d'ancrage dans le dialogue visuel est de plus en plus reconnue. Malgré les efforts récents pour permettre aux LMMs de supporter l'ancrage, leurs capacités d'ancrage et de dialogue sont généralement séparées, et leurs performances en dialogue chutent considérablement lorsqu'on leur demande de s'ancrer. Le problème réside dans l'absence d'un jeu de données pour le dialogue visuel ancré (GVC). Les jeux de données d'ancrage existants ne contiennent que de courtes légendes. Pour résoudre ce problème, nous avons créé des données GVC qui permettent de combiner les capacités d'ancrage et de dialogue. Pour mieux évaluer les capacités GVC, nous avons introduit un benchmark appelé Grounding-Bench. De plus, nous avons proposé une conception de modèle qui peut supporter le GVC et divers types d'invites visuelles en connectant des modèles de segmentation avec des modèles de langage. Les résultats expérimentaux démontrent que notre modèle surpasse les autres LMMs sur Grounding-Bench. Par ailleurs, notre modèle atteint des performances compétitives sur des benchmarks classiques d'ancrage comme RefCOCO/+/g et Flickr30K Entities. Notre code sera publié à l'adresse https://github.com/UX-Decoder/LLaVA-Grounding.
English
With the recent significant advancements in large multi-modal models (LMMs), the importance of their grounding capability in visual chat is increasingly recognized. Despite recent efforts to enable LMMs to support grounding, their capabilities for grounding and chat are usually separate, and their chat performance drops dramatically when asked to ground. The problem is the lack of a dataset for grounded visual chat (GVC). Existing grounding datasets only contain short captions. To address this issue, we have created GVC data that allows for the combination of grounding and chat capabilities. To better evaluate the GVC capabilities, we have introduced a benchmark called Grounding-Bench. Additionally, we have proposed a model design that can support GVC and various types of visual prompts by connecting segmentation models with language models. Experimental results demonstrate that our model outperforms other LMMs on Grounding-Bench. Furthermore, our model achieves competitive performance on classic grounding benchmarks like RefCOCO/+/g and Flickr30K Entities. Our code will be released at https://github.com/UX-Decoder/LLaVA-Grounding .
PDF150December 15, 2024