Réexaminer les données de légendes d'images à grande échelle dans la pré-formation des modèles fondamentaux multimodaux.
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Auteurs: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Résumé
Les récents progrès dans les modèles multimodaux mettent en évidence la valeur des légendes réécrites pour améliorer les performances, mais des défis clés subsistent. Par exemple, bien que les légendes synthétiques offrent souvent une qualité supérieure et un alignement image-texte, il n'est pas clair si elles peuvent entièrement remplacer les textes alternatifs : le rôle des légendes synthétiques et leur interaction avec les textes alternatifs originaux collectés sur le web lors de la pré-formation ne sont pas encore bien compris. De plus, différents modèles fondamentaux multimodaux peuvent avoir des préférences uniques pour des formats de légende spécifiques, mais les efforts pour identifier les légendes optimales pour chaque modèle restent limités. Dans ce travail, nous proposons un pipeline de légendage novateur, contrôlable et évolutif conçu pour générer divers formats de légendes adaptés à différents modèles multimodaux. En examinant les Légendes Synthétiques Courtes (LSC) vers les Légendes Synthétiques Denses (LSD+) comme études de cas, nous explorons systématiquement leurs effets et interactions avec les textes alternatifs à travers des modèles tels que CLIP, les LLMs multimodaux et les modèles de diffusion. Nos résultats révèlent qu'une approche hybride qui conserve à la fois les légendes synthétiques et les textes alternatifs peut surpasser l'utilisation des légendes synthétiques seules, améliorant à la fois l'alignement et les performances, chaque modèle montrant des préférences pour des formats de légende particuliers. Cette analyse approfondie fournit des perspectives précieuses pour optimiser les stratégies de légendage, faisant ainsi progresser la pré-formation des modèles fondamentaux multimodaux.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.Summary
AI-Generated Summary