ChatPaper.aiChatPaper

大規模な画像キャプションデータを再検討し、マルチモーダル基盤モデルの事前学習を行う

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

October 3, 2024
著者: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI

要旨

最近の多様モデルの進歩は、性能向上のために書き直されたキャプションの価値を強調していますが、重要な課題が残っています。例えば、合成キャプションはしばしば優れた品質と画像テキストの整合性を提供しますが、それらがAltTextを完全に置き換えることができるかどうかは明確ではありません。合成キャプションの役割とそれらが元のWebクロールされたAltTextとの相互作用が事前学習においてまだ十分に理解されていません。さらに、異なる多様基盤モデルは特定のキャプション形式に対する固有の好みを持つ可能性がありますが、各モデルに最適なキャプションを特定する取り組みは限られています。本研究では、さまざまな多様モデルに合わせた多様なキャプション形式を生成するために設計された新しい、制御可能でスケーラブルなキャプションパイプラインを提案します。Short Synthetic Captions(SSC)からDense Synthetic Captions(DSC+)へのケーススタディとして、合成キャプションとAltTextとの効果や相互作用を体系的に探究します。CLIP、多様モーダルLLMs、拡散モデルなどのモデルを対象に、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションの単独使用よりも性能と整合性の両方を向上させることがわかりました。各モデルが特定のキャプション形式を好むことが示され、この包括的な分析は、キャプション戦略の最適化に関する貴重な示唆を提供し、多様モデルの事前学習を推進します。
English
Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.

Summary

AI-Generated Summary

PDF552November 16, 2024