Rivedere i Dati di Didascalie di Immagini su Larga Scala nel Pre-addestramento di Modelli Fondamentali Multimodali
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Autori: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Abstract
Gli avanzamenti recenti nei modelli multimodali mettono in luce il valore delle didascalie riscritte per migliorare le prestazioni, tuttavia rimangono sfide chiave. Ad esempio, sebbene le didascalie sintetiche spesso offrano una qualità superiore e un'allineamento immagine-testo, non è chiaro se possano sostituire completamente gli AltText: il ruolo delle didascalie sintetiche e la loro interazione con gli AltText originali raccolti dal web nel pre-addestramento non sono ancora ben compresi. Inoltre, diversi modelli di base multimodali possono avere preferenze uniche per specifici formati di didascalia, ma gli sforzi per identificare le didascalie ottimali per ciascun modello rimangono limitati. In questo lavoro, proponiamo un nuovo, controllabile e scalabile flusso di lavoro per la generazione di didascalie diverse adattate a vari modelli multimodali. Esaminando le Didascalie Sintetiche Brevi (SSC) verso le Didascalie Sintetiche Diverse (DSC+) come casi di studio, esploriamo sistematicamente i loro effetti e le interazioni con gli AltText tra modelli come CLIP, LLM multimodali e modelli di diffusione. I nostri risultati rivelano che un approccio ibrido che tiene conto sia delle didascalie sintetiche che degli AltText può superare l'uso delle sole didascalie sintetiche, migliorando sia l'allineamento che le prestazioni, con ciascun modello che dimostra preferenze per particolari formati di didascalia. Questa analisi esaustiva fornisce preziose intuizioni per ottimizzare le strategie di didascalia, contribuendo così a far progredire il pre-addestramento dei modelli di base multimodali.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.