CompCap : Amélioration des grands modèles de langage multimodaux avec des légendes composites
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Auteurs: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Résumé
Dans quelle mesure les Modèles de Langage Multimodaux de Grande Taille (MLLM) peuvent-ils comprendre les images composites ? Les images composites (IC) sont des visuels synthétiques créés en fusionnant plusieurs éléments visuels, tels que des graphiques, des affiches ou des captures d'écran, plutôt que d'être capturés directement par une caméra. Alors que les IC sont courantes dans les applications du monde réel, les récents développements des MLLM se sont principalement concentrés sur l'interprétation des images naturelles (IN). Notre recherche révèle que les MLLM actuels rencontrent des défis significatifs pour comprendre avec précision les IC, ayant souvent du mal à extraire des informations ou à effectuer un raisonnement complexe basé sur ces images. Nous constatons que les données d'entraînement existantes pour les IC sont principalement formatées pour des tâches de questions-réponses (par exemple, dans des ensembles de données comme ChartQA et ScienceQA), tandis que des ensembles de données d'images-légendes de haute qualité, essentiels pour un alignement robuste entre la vision et le langage, ne sont disponibles que pour les IN. Pour combler ce fossé, nous introduisons les Légendes Composites (CompCap), un cadre flexible qui exploite les Grands Modèles de Langage (LLM) et des outils d'automatisation pour synthétiser des IC avec des légendes précises et détaillées. En utilisant CompCap, nous constituons CompCap-118K, un ensemble de données contenant 118K paires image-légende à travers six types d'IC. Nous validons l'efficacité de CompCap-118K en affinant de manière supervisée les MLLM de trois tailles : xGen-MM-inst.-4B et LLaVA-NeXT-Vicuna-7B/13B. Les résultats empiriques montrent que CompCap-118K améliore significativement la compréhension des IC par les MLLM, entraînant des gains moyens de 1,7 %, 2,0 % et 2,9 % respectivement sur onze critères d'évaluation.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.Summary
AI-Generated Summary