CapsFusion: Heroverweging van Beeld-Tekstgegevens op Schaal
CapsFusion: Rethinking Image-Text Data at Scale
October 31, 2023
Auteurs: Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu
cs.AI
Samenvatting
Grote multimodale modellen tonen een opmerkelijke generalistische vaardigheid om diverse multimodale taken uit te voeren op een zero-shot-manier. Grootschalige webgebaseerde afbeelding-tekstparen dragen fundamenteel bij aan dit succes, maar lijden onder overmatige ruis. Recente studies gebruiken alternatieve bijschriften die zijn gesynthetiseerd door bijschriftmodellen en hebben opmerkelijke benchmarkprestaties behaald. Onze experimenten onthullen echter significante schaalbaarheidsproblemen en verlies van wereldkennis in modellen die zijn getraind met synthetische bijschriften, wat grotendeels verborgen is gebleven door hun initiële benchmarksucces. Bij nader onderzoek identificeren we de oorzaak als de te vereenvoudigde taalstructuur en het gebrek aan kennisdetails in bestaande synthetische bijschriften. Om hoogwaardigere en beter schaalbare multimodale vooropleidingsgegevens te bieden, stellen we CapsFusion voor, een geavanceerd framework dat gebruikmaakt van grote taalmodellen om informatie van zowel webgebaseerde afbeelding-tekstparen als synthetische bijschriften te consolideren en te verfijnen. Uitgebreide experimenten tonen aan dat CapsFusion-bijschriften een opmerkelijke algehele superioriteit vertonen ten opzichte van bestaande bijschriften wat betreft modelprestaties (bijvoorbeeld 18,8 en 18,3 verbeteringen in CIDEr-score op COCO en NoCaps), steekproefefficiëntie (11-16 keer minder rekenkracht vereist dan baselines), diepte van wereldkennis en schaalbaarheid. Deze effectiviteit, efficiëntie en schaalbaarheidsvoordelen positioneren CapsFusion als een veelbelovende kandidaat voor toekomstige schaalvergroting van LMM-training.
English
Large multimodal models demonstrate remarkable generalist ability to perform
diverse multimodal tasks in a zero-shot manner. Large-scale web-based
image-text pairs contribute fundamentally to this success, but suffer from
excessive noise. Recent studies use alternative captions synthesized by
captioning models and have achieved notable benchmark performance. However, our
experiments reveal significant Scalability Deficiency and World Knowledge Loss
issues in models trained with synthetic captions, which have been largely
obscured by their initial benchmark success. Upon closer examination, we
identify the root cause as the overly-simplified language structure and lack of
knowledge details in existing synthetic captions. To provide higher-quality and
more scalable multimodal pretraining data, we propose CapsFusion, an advanced
framework that leverages large language models to consolidate and refine
information from both web-based image-text pairs and synthetic captions.
Extensive experiments show that CapsFusion captions exhibit remarkable
all-round superiority over existing captions in terms of model performance
(e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample
efficiency (requiring 11-16 times less computation than baselines), world
knowledge depth, and scalability. These effectiveness, efficiency and
scalability advantages position CapsFusion as a promising candidate for future
scaling of LMM training.