大規模な画像キャプションデータを再検討し、マルチモーダル基盤モデルの事前学習を行うRevisit Large-Scale Image-Caption Data in Pre-training Multimodal
Foundation Models
最近の多様モデルの進歩は、性能向上のために書き直されたキャプションの価値を強調していますが、重要な課題が残っています。例えば、合成キャプションはしばしば優れた品質と画像テキストの整合性を提供しますが、それらがAltTextを完全に置き換えることができるかどうかは明確ではありません。合成キャプションの役割とそれらが元のWebクロールされたAltTextとの相互作用が事前学習においてまだ十分に理解されていません。さらに、異なる多様基盤モデルは特定のキャプション形式に対する固有の好みを持つ可能性がありますが、各モデルに最適なキャプションを特定する取り組みは限られています。本研究では、さまざまな多様モデルに合わせた多様なキャプション形式を生成するために設計された新しい、制御可能でスケーラブルなキャプションパイプラインを提案します。Short Synthetic Captions(SSC)からDense Synthetic Captions(DSC+)へのケーススタディとして、合成キャプションとAltTextとの効果や相互作用を体系的に探究します。CLIP、多様モーダルLLMs、拡散モデルなどのモデルを対象に、合成キャプションとAltTextの両方を保持するハイブリッドアプローチが、合成キャプションの単独使用よりも性能と整合性の両方を向上させることがわかりました。各モデルが特定のキャプション形式を好むことが示され、この包括的な分析は、キャプション戦略の最適化に関する貴重な示唆を提供し、多様モデルの事前学習を推進します。