Überprüfung von großangelegten Bildunterschriften-Daten beim Vorabtraining multimodaler Grundlagenmodelle
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Autoren: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Zusammenfassung
Neueste Fortschritte in multimodalen Modellen betonen den Wert von umgeschriebenen Bildunterschriften zur Verbesserung der Leistung, doch es bestehen weiterhin wesentliche Herausforderungen. Zum Beispiel bieten synthetische Bildunterschriften oft eine überlegene Qualität und Bild-Text-Abstimmung, jedoch ist unklar, ob sie AltTexts vollständig ersetzen können: Die Rolle synthetischer Bildunterschriften und ihre Interaktion mit originalen AltTexts, die beim Web-Crawling gesammelt wurden, sind noch nicht ausreichend verstanden. Zudem können verschiedene multimodale Grundlagenmodelle spezifische Präferenzen für bestimmte Bildunterschriftenformate haben, aber Bemühungen, die optimalen Bildunterschriften für jedes Modell zu identifizieren, sind begrenzt. In dieser Arbeit schlagen wir eine neuartige, steuerbare und skalierbare Bildunterschriften-Pipeline vor, die darauf ausgelegt ist, vielfältige Bildunterschriftenformate zu generieren, die auf verschiedene multimodale Modelle zugeschnitten sind. Indem wir Kurze Synthetische Bildunterschriften (SSC) bis hin zu Dichten Synthetischen Bildunterschriften (DSC+) als Fallstudien betrachten, erforschen wir systematisch ihre Auswirkungen und Interaktionen mit AltTexts über Modelle wie CLIP, multimodale LLMs und Diffusionsmodelle. Unsere Ergebnisse zeigen, dass ein hybrider Ansatz, der sowohl synthetische Bildunterschriften als auch AltTexts beibehält, die Verwendung von rein synthetischen Bildunterschriften übertreffen kann, wodurch sowohl die Abstimmung als auch die Leistung verbessert werden, wobei jedes Modell Präferenzen für bestimmte Bildunterschriftenformate zeigt. Diese umfassende Analyse liefert wertvolle Einblicke zur Optimierung von Bildunterschriftenstrategien und fördert somit das Pre-Training multimodaler Grundlagenmodelle.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.Summary
AI-Generated Summary