CLIP-MoE: CLIPのための専門家の混合物の構築に向けて、多様なマルチプレットのアップサイクリング
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
著者: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
要旨
近年、対照的な言語画像事前トレーニング(CLIP)は、多様な知能において基盤となっています。しかしながら、最近の研究では、CLIPの符号化プロセスにおける情報損失が著しく、CLIPは入力から粗い特徴のみを捉える傾向があることが特定されています。この欠陥は、視覚的な詳細が豊富な画像を処理する単一のCLIPモデルの能力を著しく制限しています。本研究では、CLIP向けのシンプルで効果的なモデルに依存しない戦略、Diversified Multiplet Upcycling(DMU)を提案しています。DMUは、密な事前トレーニングされたCLIPチェックポイントから異なる特徴空間を捉える一連のCLIPモデルを効果的にファインチューニングし、FFNを除くパラメータを共有します。これらのモデルは、より大きなモデル容量を持つCLIP-MoEに変換され、最小限の計算オーバーヘッドで著しく向上したパフォーマンスをもたらします。私たちの知る限り、Diversified Multiplet Upcyclingは、CLIP基盤モデルに疎に活性化されたMoEを導入する最初のアプローチです。幅広い実験は、CLIP-MoEの著しいパフォーマンスを示し、ゼロショット検索、ゼロショット画像分類タスク、および下流のMultimodal Large Language Model(MLLM)ベンチマークにおいて、ビジョンエンコーダとして機能することを示しています。さらに、Diversified Multiplet Upcyclingは、任意の密なCLIPモデルをCLIP-MoEに変換し、下流のフレームワークでの追加の適応を必要とせずに、プラグアンドプレイでCLIPをシームレスに置き換えることを可能にします。Diversified Multiplet Upcyclingを通じて、より効率的かつ効果的な多様な学習システムの開発に向けた将来の研究に貴重な示唆を提供することを目指しています。
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary