CLIP-MoE: Rumo à Construção de uma Mistura de Especialistas para o CLIP com Reciclagem Diversificada de Multipletos
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Autores: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Resumo
Nos últimos anos, a Pré-treinamento Contrastivo Linguagem-Imagem (CLIP) tornou-se um pilar na inteligência multimodal. No entanto, estudos recentes identificaram que a perda de informação no processo de codificação do CLIP é substancial, e o CLIP tende a capturar apenas características grosseiras da entrada. Essa deficiência limita significativamente a capacidade de um único modelo CLIP lidar com imagens ricas em detalhes visuais. Neste trabalho, propomos uma estratégia simples, porém eficaz e independente de modelo, chamada de Reciclagem Diversificada de Múltiplos (DMU), para o CLIP. O DMU ajusta eficientemente uma série de modelos CLIP que capturam diferentes espaços de características, a partir de um ponto de verificação denso pré-treinado do CLIP, compartilhando parâmetros exceto para a Rede de Alimentação Direta (FFN). Esses modelos podem então ser transformados em um CLIP-MoE com uma capacidade de modelo maior, resultando em um desempenho significativamente aprimorado com um mínimo custo computacional. Até onde sabemos, a Reciclagem Diversificada de Múltiplos é a primeira abordagem a introduzir MoE esparsamente ativados nos modelos fundamentais do CLIP. Experimentos extensivos demonstram o desempenho significativo do CLIP-MoE em várias tarefas de recuperação sem uso de exemplos, classificação de imagens sem uso de exemplos e benchmarks downstream de Modelos de Linguagem Multimodal Grande (MLLM) ao servir como um codificador de visão. Além disso, a Reciclagem Diversificada de Múltiplos permite a conversão de qualquer modelo denso do CLIP em CLIP-MoEs, que podem substituir o CLIP de forma simples e direta sem necessidade de adaptação adicional em estruturas downstream. Através da Reciclagem Diversificada de Múltiplos, visamos fornecer insights valiosos para futuras pesquisas no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary