CLIP-MoE : Vers la construction d'un Mélange d'Experts pour CLIP avec un Recyclage Diversifié des Multiplets
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Auteurs: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Résumé
Ces dernières années, la Pré-formation Contradictoire Langage-Image (CLIP) est devenue un pilier de l'intelligence multimodale. Cependant, des études récentes ont identifié une perte d'information substantielle dans le processus d'encodage CLIP, et CLIP a tendance à capturer uniquement des caractéristiques grossières de l'entrée. Cette lacune limite considérablement la capacité d'un seul modèle CLIP à traiter des images riches en détails visuels. Dans ce travail, nous proposons une stratégie simple mais efficace, agnostique au modèle, appelée Upcycling Multiplet Diversifié (DMU), pour CLIP. DMU affine efficacement une série de modèles CLIP qui capturent différents espaces de caractéristiques, à partir d'un point de contrôle CLIP pré-entraîné dense, partageant des paramètres à l'exception du Réseau Feed-Forward (FFN). Ces modèles peuvent ensuite être transformés en un CLIP-MoE avec une capacité de modèle plus grande, conduisant à des performances considérablement améliorées avec un surcoût computationnel minimal. À notre connaissance, l'Upcycling Multiplet Diversifié est la première approche à introduire des MoE activés de manière épars dans les modèles de base CLIP. Des expériences approfondies démontrent les performances significatives de CLIP-MoE dans diverses tâches de recherche sans apprentissage, de classification d'images sans apprentissage et de référentiels de modèles de langage multimodal large en aval (MLLM) en servant d'encodeur visuel. De plus, l'Upcycling Multiplet Diversifié permet la conversion de tout modèle CLIP dense en CLIP-MoEs, qui peuvent remplacer CLIP de manière plug-and-play sans nécessiter d'adaptation supplémentaire dans les cadres en aval. À travers l'Upcycling Multiplet Diversifié, nous visons à fournir des perspectives précieuses pour la recherche future sur le développement de systèmes d'apprentissage multimodal plus efficaces et efficaces.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary