CLIP-MoE: Auf dem Weg zum Aufbau eines Expertenmixes für CLIP mit diversifiziertem Multiplet-Upcycling.
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
September 28, 2024
Autoren: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
cs.AI
Zusammenfassung
In den letzten Jahren hat sich das Kontrastive Sprach-Bild-Vortraining (CLIP) zu einem Eckpfeiler in der multimodalen Intelligenz entwickelt. Allerdings haben jüngste Studien festgestellt, dass der Informationsverlust im CLIP-Codierungsprozess erheblich ist und CLIP dazu neigt, nur grobkörnige Merkmale aus der Eingabe zu erfassen. Dieser Mangel begrenzt signifikant die Fähigkeit eines einzelnen CLIP-Modells, Bilder mit reichhaltigen visuellen Details zu verarbeiten. In dieser Arbeit schlagen wir eine einfache, aber effektive modellagnostische Strategie, das Diversified Multiplet Upcycling (DMU) für CLIP, vor. DMU feinabstimmt effizient eine Reihe von CLIP-Modellen, die verschiedene Merkmalsräume erfassen, ausgehend von einem dicht vorab trainierten CLIP-Checkpoint, wobei die Parameter außer dem Feed-Forward-Netzwerk (FFN) gemeinsam genutzt werden. Diese Modelle können dann in ein CLIP-MoE mit größerer Modellkapazität umgewandelt werden, was zu einer signifikant verbesserten Leistung bei minimalem Rechenaufwand führt. Nach unserem Kenntnisstand ist das Diversified Multiplet Upcycling der erste Ansatz, der spärlich aktiviertes MoE in CLIP-Grundmodelle einführt. Umfangreiche Experimente zeigen die signifikante Leistung von CLIP-MoE bei verschiedenen Zero-Shot-Retrieval-, Zero-Shot-Bildklassifizierungsaufgaben und Downstream-Benchmarks für multimodale große Sprachmodelle (MLLM), indem es als Vision-Encoder dient. Darüber hinaus ermöglicht das Diversified Multiplet Upcycling die Umwandlung eines beliebigen dichten CLIP-Modells in CLIP-MoEs, die CLIP nahtlos in einem Plug-and-Play-Verfahren ohne weitere Anpassung in nachgelagerten Frameworks ersetzen können. Durch das Diversified Multiplet Upcycling zielen wir darauf ab, wertvolle Einblicke für zukünftige Forschungen zur Entwicklung effizienterer und effektiverer multimodaler Lernsysteme zu bieten.
English
In recent years, Contrastive Language-Image Pre-training (CLIP) has become a
cornerstone in multimodal intelligence. However, recent studies have identified
that the information loss in the CLIP encoding process is substantial, and CLIP
tends to capture only coarse-grained features from the input. This deficiency
significantly limits the ability of a single CLIP model to handle images rich
in visual detail. In this work, we propose a simple yet effective
model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU
efficiently fine-tunes a series of CLIP models that capture different feature
spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for
the Feed-Forward Network (FFN). These models can then be transformed into a
CLIP-MoE with a larger model capacity, leading to significantly enhanced
performance with minimal computational overhead. To the best of our knowledge,
Diversified Multiplet Upcycling is the first approach to introduce sparsely
activated MoE into CLIP foundation models. Extensive experiments demonstrate
the significant performance of CLIP-MoE across various zero-shot retrieval,
zero-shot image classification tasks, and downstream Multimodal Large Language
Model (MLLM) benchmarks by serving as a vision encoder. Furthermore,
Diversified Multiplet Upcycling enables the conversion of any dense CLIP model
into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner
without requiring further adaptation in downstream frameworks. Through
Diversified Multiplet Upcycling, we aim to provide valuable insights for future
research on developing more efficient and effective multimodal learning
systems.Summary
AI-Generated Summary