CompCap: Het verbeteren van multimodale grote taalmodellen met samengestelde bijschriften
CompCap: Improving Multimodal Large Language Models with Composite Captions
December 6, 2024
Auteurs: Xiaohui Chen, Satya Narayan Shukla, Mahmoud Azab, Aashu Singh, Qifan Wang, David Yang, ShengYun Peng, Hanchao Yu, Shen Yan, Xuewen Zhang, Baosheng He
cs.AI
Samenvatting
In hoeverre kunnen Multimodale Grote Taalmodellen (MLLM's) samengestelde afbeeldingen begrijpen? Samengestelde afbeeldingen (CIs) zijn synthetische visuele elementen die worden gecreëerd door meerdere visuele elementen samen te voegen, zoals grafieken, posters of schermafbeeldingen, in plaats van rechtstreeks door een camera te worden vastgelegd. Hoewel CIs veel voorkomen in praktische toepassingen, hebben recente MLLM-ontwikkelingen zich voornamelijk gericht op het interpreteren van natuurlijke afbeeldingen (NIs). Ons onderzoek onthult dat huidige MLLM's aanzienlijke uitdagingen ondervinden bij het nauwkeurig begrijpen van CIs, waarbij ze vaak moeite hebben om informatie te extraheren of complexe redeneringen uit te voeren op basis van deze afbeeldingen. We constateren dat bestaande trainingsgegevens voor CIs voornamelijk zijn opgemaakt voor vraag-antwoordtaken (bijv. in datasets zoals ChartQA en ScienceQA), terwijl hoogwaardige afbeelding-onderschrift datasets, essentieel voor een robuuste visueel-talige afstemming, alleen beschikbaar zijn voor NIs. Om deze kloof te overbruggen, introduceren we Samengestelde Onderschriften (CompCap), een flexibel raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) en automatiseringstools om CIs te synthetiseren met nauwkeurige en gedetailleerde onderschriften. Met behulp van CompCap stellen we CompCap-118K samen, een dataset met 118K afbeelding-onderschrift paren over zes CI-types. We valideren de effectiviteit van CompCap-118K door toezichtgehouden fijnafstemming van MLLM's van drie groottes: xGen-MM-inst.-4B en LLaVA-NeXT-Vicuna-7B/13B. Empirische resultaten tonen aan dat CompCap-118K aanzienlijk de begrip van MLLM's van CIs verbetert, met gemiddelde winsten van respectievelijk 1.7%, 2.0% en 2.9% over elf benchmarks.
English
How well can Multimodal Large Language Models (MLLMs) understand composite
images? Composite images (CIs) are synthetic visuals created by merging
multiple visual elements, such as charts, posters, or screenshots, rather than
being captured directly by a camera. While CIs are prevalent in real-world
applications, recent MLLM developments have primarily focused on interpreting
natural images (NIs). Our research reveals that current MLLMs face significant
challenges in accurately understanding CIs, often struggling to extract
information or perform complex reasoning based on these images. We find that
existing training data for CIs are mostly formatted for question-answer tasks
(e.g., in datasets like ChartQA and ScienceQA), while high-quality
image-caption datasets, critical for robust vision-language alignment, are only
available for NIs. To bridge this gap, we introduce Composite Captions
(CompCap), a flexible framework that leverages Large Language Models (LLMs) and
automation tools to synthesize CIs with accurate and detailed captions. Using
CompCap, we curate CompCap-118K, a dataset containing 118K image-caption pairs
across six CI types. We validate the effectiveness of CompCap-118K by
supervised fine-tuning MLLMs of three sizes: xGen-MM-inst.-4B and
LLaVA-NeXT-Vicuna-7B/13B. Empirical results show that CompCap-118K
significantly enhances MLLMs' understanding of CIs, yielding average gains of
1.7%, 2.0%, and 2.9% across eleven benchmarks, respectively.