重新審視大規模圖像標題數據在預訓練多模態基礎模型中的應用Revisit Large-Scale Image-Caption Data in Pre-training Multimodal
Foundation Models
最近在多模型方面的進展凸顯了改寫標題以提升效能的價值,然而仍存在關鍵挑戰。例如,雖然合成標題通常提供優越的品質和圖像-文字對齊,但目前尚不清楚它們是否能完全取代AltTexts:合成標題在預訓練中的作用及與原始網頁抓取的AltTexts的互動仍不明確。此外,不同的多模型基礎模型可能對特定標題格式有獨特偏好,但目前對於為每個模型確定最佳標題的努力仍受限。在這項工作中,我們提出了一種新穎、可控且可擴展的標題生成流程,旨在產生多樣的標題格式,以適應各種多模型模型。通過將短合成標題(SSC)轉向密集合成標題(DSC+)作為案例研究,我們系統地探索它們在模型(如CLIP、多模型LLMs和擴散模型)中與AltTexts的影響和互動。我們的研究發現,保留合成標題和AltTexts的混合方法可以優於僅使用合成標題,從而改善對齊和效能,並且每個模型都展現對特定標題格式的偏好。這一全面分析提供了優化標題策略的寶貴見解,從而推動多模型基礎模型的預訓練。