CoMP: Kontinuierliches multimodales Pre-Training für visuelle Basismodelle
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
Autoren: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Zusammenfassung
Vortrainierte Vision Foundation Models (VFMs) bieten starke visuelle Repräsentationen für eine Vielzahl von Anwendungen. In diesem Artikel trainieren wir vorherrschende VFMs kontinuierlich auf multimodale Weise weiter, sodass sie visuelle Eingaben unterschiedlicher Größe mühelos verarbeiten und visuelle Repräsentationen erzeugen können, die stärker an Sprachrepräsentationen angepasst sind, unabhängig von ihrem ursprünglichen Vortrainingsprozess. Zu diesem Zweck führen wir CoMP ein, eine sorgfältig konzipierte multimodale Vortrainingspipeline. CoMP verwendet eine Continual Rotary Position Embedding, um natives Auflösungs-Continuierliches Vortraining zu unterstützen, sowie einen Alignment Loss zwischen visuellen und textuellen Merkmalen durch Sprachprototypen, um multimodale Repräsentationen auszurichten. Durch ein dreistufiges Training erzielen unsere VFMs bemerkenswerte Verbesserungen nicht nur im multimodalen Verständnis, sondern auch in anderen nachgelagerten Aufgaben wie Klassifikation und Segmentierung. Bemerkenswerterweise erreicht CoMP-SigLIP Werte von 66,7 auf ChartQA und 75,9 auf DocVQA mit einem 0,5B LLM, während es eine Genauigkeit von 87,4 % auf ImageNet-1K und ein mIoU von 49,5 auf ADE20K unter gefrorener Chunk-Evaluierung beibehält.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary