LLM2CLIP: 強力な言語モデルがより豊かな視覚表現を解き放つLLM2CLIP: Powerful Language Model Unlock Richer Visual Representation
CLIPは今日最も重要なマルチモーダルな基盤モデルの1つです。CLIPの機能を支えているのは何でしょうか?人間の知識の運び手である自然言語によって提供される豊富な監督信号が、強力なクロスモーダル表現空間を形作っています。しかし、GPT-4やLLaMAなどの大規模言語モデル(LLM)の急速な進歩により、言語理解と生成の境界が常に em>押し広げられています。これは興味深い問いを提起します:LLMの能力を活用して、マルチモーダル表現学習をさらに向上させることは可能でしょうか?LLMをCLIPに組み込むことの潜在的な利点は明らかです。LLMの強力なテキスト理解は、画像キャプションを処理する能力を根本的に向上させ、バニラCLIPの長く複雑なテキストを処理する能力を劇的に向上させることができます。さらに、LLMは膨大なテキストコーパスで訓練されており、オープンワールドの知識を持っています。これにより、訓練中にキャプション情報を拡張し、学習プロセスの効率を向上させることができます。本論文では、LLMの力を活用してCLIPの潜在能力を引き出す新しいアプローチであるLLM2CLIPを提案します。コントラスト学習を用いてキャプション空間でLLMを微調整することで、そのテキスト能力を出力埋め込みに抽出し、出力層のテキストの識別可能性を大幅に向上させます。その後、微調整されたLLMをCLIPのビジュアルエンコーダの強力な教師として機能させる効率的なトレーニングプロセスを設計します。LLMの存在により、バニラCLIPのテキストエンコーダのコンテキストウィンドウと能力の制限に制約されることなく、より長く複雑なキャプションを組み込むことができます。私たちの実験は、このアプローチがクロスモーダルタスクで大幅な改善をもたらすことを示しています。