CLIP-MoE: Verso la creazione di un Mixture of Experts per CLIP con un riciclo diversificato di multipletti
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Autori: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Abstract
Negli ultimi anni, il Pre-training Contrastivo Linguaggio-Immagine (CLIP) è diventato una pietra angolare nell'intelligenza multimodale. Tuttavia, recenti studi hanno identificato che la perdita di informazioni nel processo di codifica CLIP è sostanziale e CLIP tende a catturare solo caratteristiche a grana grossa dall'input. Questa carenza limita significativamente la capacità di un singolo modello CLIP di gestire immagini ricche di dettagli visivi. In questo lavoro, proponiamo una strategia semplice ma efficace, indipendente dal modello, chiamata Diversified Multiplet Upcycling (DMU) per CLIP. DMU ottimizza in modo efficiente una serie di modelli CLIP che catturano spazi delle caratteristiche differenti da un checkpoint CLIP pre-addestrato denso, condividendo parametri tranne per la Rete Feed-Forward (FFN). Questi modelli possono poi essere trasformati in un CLIP-MoE con una capacità di modello maggiore, portando a un miglioramento significativo delle prestazioni con un minimo dispendio computazionale. Per quanto ne sappiamo, Diversified Multiplet Upcycling è il primo approccio a introdurre MoE attivati in modo sparso nei modelli fondamentali di CLIP. Estesi esperimenti dimostrano le prestazioni significative di CLIP-MoE in vari compiti di recupero a zero-shot, classificazione di immagini a zero-shot e benchmark Multimodal Large Language Model (MLLM) downstream fungendo da codificatore di visione. Inoltre, Diversified Multiplet Upcycling consente la conversione di qualsiasi modello CLIP denso in CLIP-MoEs, che possono sostituire CLIP in modo semplice e immediato senza richiedere ulteriori adattamenti nei framework downstream. Attraverso Diversified Multiplet Upcycling, miriamo a fornire preziose intuizioni per la ricerca futura nello sviluppo di sistemi di apprendimento multimodale più efficienti ed efficaci.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.