CLIP-MoE: Hacia la construcción de una Mezcla de Expertos para CLIP con Reciclaje Diversificado de Multipletes
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Autores: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Resumen
En los últimos años, el Pre-entrenamiento de Lenguaje-Imagen Contrastivo (CLIP) se ha convertido en un pilar de la inteligencia multimodal. Sin embargo, estudios recientes han identificado que la pérdida de información en el proceso de codificación de CLIP es sustancial, y CLIP tiende a capturar solo características de gran escala de la entrada. Esta deficiencia limita significativamente la capacidad de un único modelo CLIP para manejar imágenes ricas en detalles visuales. En este trabajo, proponemos una estrategia simple pero efectiva y agnóstica al modelo, llamada Reciclaje Diversificado de Múltiples (DMU), para CLIP. DMU ajusta eficientemente una serie de modelos CLIP que capturan diferentes espacios de características, a partir de un punto de control CLIP pre-entrenado denso, compartiendo parámetros excepto para la Red de Retroalimentación (FFN). Estos modelos pueden luego transformarse en un CLIP-MoE con una capacidad de modelo mayor, lo que resulta en un rendimiento significativamente mejorado con un mínimo gasto computacional. Hasta donde sabemos, el Reciclaje Diversificado de Múltiples es el primer enfoque en introducir MoE escasamente activados en los modelos fundamentales de CLIP. Experimentos extensos demuestran el rendimiento significativo de CLIP-MoE en varias tareas de recuperación de cero disparo, clasificación de imágenes de cero disparo y pruebas de modelos de lenguaje multimodal grande (MLLM) aguas abajo al servir como codificador de visión. Además, el Reciclaje Diversificado de Múltiples permite la conversión de cualquier modelo CLIP denso en CLIP-MoEs, que pueden reemplazar CLIP de manera sencilla en un enfoque de conectar y usar sin necesidad de adaptación adicional en marcos de trabajo aguas abajo. A través del Reciclaje Diversificado de Múltiples, nuestro objetivo es proporcionar ideas valiosas para futuras investigaciones sobre el desarrollo de sistemas de aprendizaje multimodal más eficientes y efectivos.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary