CLIP-MoE: Направленность на создание смеси экспертов для CLIP с диверсифицированным повышением кратности.
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Авторы: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Аннотация
В последние годы контрастное предварительное обучение язык-изображение (CLIP) стало основополагающим в мультимодальном интеллекте. Однако недавние исследования выявили значительные потери информации в процессе кодирования CLIP и то, что CLIP склонен улавливать только крупномасштабные особенности входных данных. Этот недостаток существенно ограничивает способность одной модели CLIP обрабатывать изображения, богатые визуальными деталями. В данной работе мы предлагаем простую, но эффективную стратегию, не зависящую от модели, под названием Diversified Multiplet Upcycling (DMU) для CLIP. DMU эффективно донастраивает серию моделей CLIP, захватывающих различные пространства признаков, из плотного предварительно обученного контрольной точки CLIP, разделяя параметры за исключением сети прямого распространения (FFN). Эти модели могут затем быть преобразованы в CLIP-MoE с большей емкостью модели, что приводит к значительно улучшенной производительности с минимальными вычислительными затратами. На наш взгляд, Diversified Multiplet Upcycling является первым подходом, вводящим разреженно активированные MoE в основные модели CLIP. Обширные эксперименты демонстрируют значительную производительность CLIP-MoE в различных задачах нулевого обучения с воспроизведением, нулевой классификации изображений и бенчмарках для мультимодальных больших языковых моделей (MLLM), выступая в качестве визионного кодировщика. Более того, Diversified Multiplet Upcycling позволяет преобразовать любую плотную модель CLIP в CLIP-MoE, которые могут легко заменить CLIP в режиме "включил и заработал", не требуя дополнительной адаптации в последующих фреймворках. Через Diversified Multiplet Upcycling мы стремимся предоставить ценные идеи для будущих исследований по разработке более эффективных и эффективных мультимодальных систем обучения.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary