CapsFusion: Heroverweging van Beeld-Tekstgegevens op Schaal

Samenvatting

Grote multimodale modellen tonen een opmerkelijke generalistische vaardigheid om diverse multimodale taken uit te voeren op een zero-shot-manier. Grootschalige webgebaseerde afbeelding-tekstparen dragen fundamenteel bij aan dit succes, maar lijden onder overmatige ruis. Recente studies gebruiken alternatieve bijschriften die zijn gesynthetiseerd door bijschriftmodellen en hebben opmerkelijke benchmarkprestaties behaald. Onze experimenten onthullen echter significante schaalbaarheidsproblemen en verlies van wereldkennis in modellen die zijn getraind met synthetische bijschriften, wat grotendeels verborgen is gebleven door hun initiële benchmarksucces. Bij nader onderzoek identificeren we de oorzaak als de te vereenvoudigde taalstructuur en het gebrek aan kennisdetails in bestaande synthetische bijschriften. Om hoogwaardigere en beter schaalbare multimodale vooropleidingsgegevens te bieden, stellen we CapsFusion voor, een geavanceerd framework dat gebruikmaakt van grote taalmodellen om informatie van zowel webgebaseerde afbeelding-tekstparen als synthetische bijschriften te consolideren en te verfijnen. Uitgebreide experimenten tonen aan dat CapsFusion-bijschriften een opmerkelijke algehele superioriteit vertonen ten opzichte van bestaande bijschriften wat betreft modelprestaties (bijvoorbeeld 18,8 en 18,3 verbeteringen in CIDEr-score op COCO en NoCaps), steekproefefficiëntie (11-16 keer minder rekenkracht vereist dan baselines), diepte van wereldkennis en schaalbaarheid. Deze effectiviteit, efficiëntie en schaalbaarheidsvoordelen positioneren CapsFusion als een veelbelovende kandidaat voor toekomstige schaalvergroting van LMM-training.

English

Large multimodal models demonstrate remarkable generalist ability to perform diverse multimodal tasks in a zero-shot manner. Large-scale web-based image-text pairs contribute fundamentally to this success, but suffer from excessive noise. Recent studies use alternative captions synthesized by captioning models and have achieved notable benchmark performance. However, our experiments reveal significant Scalability Deficiency and World Knowledge Loss issues in models trained with synthetic captions, which have been largely obscured by their initial benchmark success. Upon closer examination, we identify the root cause as the overly-simplified language structure and lack of knowledge details in existing synthetic captions. To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions. Extensive experiments show that CapsFusion captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability. These effectiveness, efficiency and scalability advantages position CapsFusion as a promising candidate for future scaling of LMM training.

CapsFusion: Heroverweging van Beeld-Tekstgegevens op Schaal

CapsFusion: Rethinking Image-Text Data at Scale

Samenvatting

Support