Énumération des éléments un par un : Une nouvelle source de données et un paradigme d'apprentissage pour les modèles de langage multimodaux
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs
April 25, 2024
Auteurs: An Yan, Zhengyuan Yang, Junda Wu, Wanrong Zhu, Jianwei Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Julian McAuley, Jianfeng Gao, Lijuan Wang
cs.AI
Résumé
Le "Set-of-Mark" (SoM) Prompting libère la capacité d'ancrage visuel de GPT-4V en permettant au modèle d'associer des objets visuels à des étiquettes insérées sur l'image. Ces étiquettes, marquées par des caractères alphanumériques, peuvent être indexées via des tokens textuels pour une référence facile. Malgré les performances exceptionnelles de GPT-4V, nous observons que d'autres modèles de langage multimodaux de grande taille (MLLMs) peinent à comprendre ces étiquettes visuelles. Pour favoriser l'apprentissage du SoM prompting pour les modèles open-source, nous proposons un nouveau paradigme d'apprentissage : "énumérer les éléments un par un", qui demande au modèle de lister et de décrire toutes les étiquettes visuelles placées sur l'image en suivant l'ordre alphanumérique des étiquettes. En intégrant notre jeu de données soigneusement sélectionné avec d'autres ensembles de données de réglage d'instructions visuelles, nous parvenons à doter les MLLMs existants de la capacité de SoM prompting. De plus, nous évaluons nos modèles SoM affinés sur cinq benchmarks de MLLMs. Nous constatons que ce nouveau jeu de données, même de taille relativement modeste (10k-30k images avec étiquettes), améliore significativement les capacités de raisonnement visuel et réduit les hallucinations pour les MLLMs. Fait peut-être surprenant, ces améliorations persistent même lorsque les étiquettes visuelles sont omises des images d'entrée lors de l'inférence. Cela suggère le potentiel de "énumérer les éléments un par un" comme un nouveau paradigme pour l'entraînement des MLLMs, qui renforce l'alignement objet-texte grâce à l'utilisation d'étiquettes visuelles lors de la phase d'entraînement. Enfin, nous menons des analyses en sondant les modèles entraînés pour comprendre le mécanisme de fonctionnement du SoM. Notre code et nos données sont disponibles à l'adresse https://github.com/zzxslp/SoM-LLaVA.
English
Set-of-Mark (SoM) Prompting unleashes the visual grounding capability of
GPT-4V, by enabling the model to associate visual objects with tags inserted on
the image. These tags, marked with alphanumerics, can be indexed via text
tokens for easy reference. Despite the extraordinary performance from GPT-4V,
we observe that other Multimodal Large Language Models (MLLMs) struggle to
understand these visual tags. To promote the learning of SoM prompting for
open-source models, we propose a new learning paradigm: "list items one by
one," which asks the model to enumerate and describe all visual tags placed on
the image following the alphanumeric orders of tags. By integrating our curated
dataset with other visual instruction tuning datasets, we are able to equip
existing MLLMs with the SoM prompting ability. Furthermore, we evaluate our
finetuned SoM models on five MLLM benchmarks. We find that this new dataset,
even in a relatively small size (10k-30k images with tags), significantly
enhances visual reasoning capabilities and reduces hallucinations for MLLMs.
Perhaps surprisingly, these improvements persist even when the visual tags are
omitted from input images during inference. This suggests the potential of
"list items one by one" as a new paradigm for training MLLMs, which strengthens
the object-text alignment through the use of visual tags in the training stage.
Finally, we conduct analyses by probing trained models to understand the
working mechanism of SoM. Our code and data are available at
https://github.com/zzxslp/SoM-LLaVA.Summary
AI-Generated Summary