ChatPaper.aiChatPaper

CLIP-MoE: Verso la creazione di un Mixture of Experts per CLIP con un riciclo diversificato di multipletti

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

September 28, 2024
Autori: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI

Abstract

Negli ultimi anni, il Pre-training Contrastivo Linguaggio-Immagine (CLIP) è diventato una pietra angolare nell'intelligenza multimodale. Tuttavia, recenti studi hanno identificato che la perdita di informazioni nel processo di codifica CLIP è sostanziale e CLIP tende a catturare solo caratteristiche a grana grossa dall'input. Questa carenza limita significativamente la capacità di un singolo modello CLIP di gestire immagini ricche di dettagli visivi. In questo lavoro, proponiamo una strategia semplice ma efficace, indipendente dal modello, chiamata Diversified Multiplet Upcycling (DMU) per CLIP. DMU ottimizza in modo efficiente una serie di modelli CLIP che catturano spazi delle caratteristiche differenti da un checkpoint CLIP pre-addestrato denso, condividendo parametri tranne per la Rete Feed-Forward (FFN). Questi modelli possono poi essere trasformati in un CLIP-MoE con una capacità di modello maggiore, portando a un miglioramento significativo delle prestazioni con un minimo dispendio computazionale. Per quanto ne sappiamo, Diversified Multiplet Upcycling è il primo approccio a introdurre MoE attivati in modo sparso nei modelli fondamentali di CLIP. Estesi esperimenti dimostrano le prestazioni significative di CLIP-MoE in vari compiti di recupero a zero-shot, classificazione di immagini a zero-shot e benchmark Multimodal Large Language Model (MLLM) downstream fungendo da codificatore di visione. Inoltre, Diversified Multiplet Upcycling consente la conversione di qualsiasi modello CLIP denso in CLIP-MoEs, che possono sostituire CLIP in modo semplice e immediato senza richiedere ulteriori adattamenti nei framework downstream. Attraverso Diversified Multiplet Upcycling, miriamo a fornire preziose intuizioni per la ricerca futura nello sviluppo di sistemi di apprendimento multimodale più efficienti ed efficaci.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in multimodal intelligence. However, recent studies have identified that the information loss in the CLIP encoding process is substantial, and CLIP tends to capture only coarse-grained features from the input. This deficiency significantly limits the ability of a single CLIP model to handle images rich in visual detail. In this work, we propose a simple yet effective model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU efficiently fine-tunes a series of CLIP models that capture different feature spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for the Feed-Forward Network (FFN). These models can then be transformed into a CLIP-MoE with a larger model capacity, leading to significantly enhanced performance with minimal computational overhead. To the best of our knowledge, Diversified Multiplet Upcycling is the first approach to introduce sparsely activated MoE into CLIP foundation models. Extensive experiments demonstrate the significant performance of CLIP-MoE across various zero-shot retrieval, zero-shot image classification tasks, and downstream Multimodal Large Language Model (MLLM) benchmarks by serving as a vision encoder. Furthermore, Diversified Multiplet Upcycling enables the conversion of any dense CLIP model into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner without requiring further adaptation in downstream frameworks. Through Diversified Multiplet Upcycling, we aim to provide valuable insights for future research on developing more efficient and effective multimodal learning systems.
PDF212November 16, 2024