Herzie Grote-Schaal Afbeelding-Onderschrift Gegevens bij het Vooraf Trainen van Multimodale Fundamentele Modellen
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Auteurs: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Samenvatting
Recente ontwikkelingen in multimodale modellen benadrukken de waarde van herschreven bijschriften voor het verbeteren van de prestaties, maar er blijven belangrijke uitdagingen bestaan. Zo bieden synthetische bijschriften vaak superieure kwaliteit en afstemming van afbeeldingen en tekst, maar het is niet duidelijk of ze volledig AltTexts kunnen vervangen: de rol van synthetische bijschriften en hun interactie met originele AltTexts die zijn verkregen via web-crawling tijdens pre-training is nog niet goed begrepen. Bovendien kunnen verschillende multimodale basismodellen unieke voorkeuren hebben voor specifieke bijschriftformaten, maar inspanningen om de optimale bijschriften voor elk model te identificeren blijven beperkt. In dit werk stellen we een nieuw, controleerbaar en schaalbaar bijschriftenproces voor dat is ontworpen om diverse bijschriftformaten te genereren die zijn afgestemd op verschillende multimodale modellen. Door Short Synthetic Captions (SSC) naar Dense Synthetic Captions (DSC+) als casestudies te onderzoeken, verkennen we systematisch hun effecten en interacties met AltTexts over modellen zoals CLIP, multimodale LLM's en diffusiemodellen. Onze bevindingen tonen aan dat een hybride benadering die zowel synthetische bijschriften als AltTexts behoudt beter kan presteren dan het gebruik van alleen synthetische bijschriften, waarbij zowel de afstemming als de prestaties verbeteren, waarbij elk model voorkeuren laat zien voor specifieke bijschriftformaten. Deze uitgebreide analyse biedt waardevolle inzichten in het optimaliseren van bijschriftenstrategieën, waardoor de pre-training van multimodale basismodellen wordt bevorderd.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.Summary
AI-Generated Summary