CLIP-MoE: Naar het opbouwen van een Mengeling van Experts voor CLIP met Gediversifieerde Multiplet Upcycling
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Auteurs: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Samenvatting
In de afgelopen jaren is Contrastieve Taal-Afbeelding Vooraftraining (CLIP) een hoeksteen geworden in multimodale intelligentie. Echter, recente studies hebben geïdentificeerd dat het informatieverlies in het CLIP encoderingsproces aanzienlijk is, en CLIP neigt alleen grofkorrelige kenmerken van de invoer vast te leggen. Deze tekortkoming beperkt aanzienlijk de mogelijkheid van een enkel CLIP-model om afbeeldingen met veel visuele details te verwerken. In dit werk stellen we een eenvoudige maar effectieve model-agnostische strategie voor, Diversified Multiplet Upcycling (DMU), voor CLIP. DMU stemt efficiënt een reeks CLIP-modellen af die verschillende kenmerkruimten vastleggen, vanuit een dicht vooraf getraind CLIP controlepunt, waarbij parameters worden gedeeld behalve voor het Feed-Forward Netwerk (FFN). Deze modellen kunnen vervolgens worden omgezet in een CLIP-MoE met een grotere modelcapaciteit, wat leidt tot aanzienlijk verbeterde prestaties met minimale computationele overhead. Voor zover wij weten, is Diversified Multiplet Upcycling de eerste benadering die spaarzaam geactiveerde MoE introduceert in CLIP-funderingsmodellen. Uitgebreide experimenten tonen de significante prestaties van CLIP-MoE aan bij verschillende zero-shot opvraging, zero-shot beeldclassificatietaken, en downstream Multimodaal Groot Taalmodel (MLLM) benchmarks door te dienen als een visie-encoder. Bovendien maakt Diversified Multiplet Upcycling de conversie van elk dicht CLIP-model naar CLIP-MoE mogelijk, die naadloos CLIP kan vervangen op een plug-and-play manier zonder verdere aanpassing in downstream raamwerken te vereisen. Via Diversified Multiplet Upcycling streven we ernaar waardevolle inzichten te bieden voor toekomstig onderzoek naar het ontwikkelen van efficiëntere en effectievere multimodale leersystemen.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary