CoMP: Continuele Multimodale Pre-training voor Visuele Fundamentmodellen
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
Auteurs: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Voorgetrainde Vision Foundation Models (VFMs) bieden sterke visuele representaties voor een breed scala aan toepassingen. In dit artikel trainen we bestaande VFMs voortdurend opnieuw op een multimodale manier, zodat ze moeiteloos visuele invoer van verschillende groottes kunnen verwerken en visuele representaties kunnen produceren die beter zijn afgestemd op taalrepresentaties, ongeacht hun oorspronkelijke voorafgaande trainingsproces. Hiertoe introduceren we CoMP, een zorgvuldig ontworpen multimodale voorafgaande trainingspijplijn. CoMP gebruikt een Continual Rotary Position Embedding om native resolutie voortdurende voorafgaande training te ondersteunen, en een Alignment Loss tussen visuele en tekstuele kenmerken via taalprototypes om multimodale representaties af te stemmen. Door middel van een driedelige training behalen onze VFMs opmerkelijke verbeteringen, niet alleen in multimodaal begrip maar ook in andere downstream taken zoals classificatie en segmentatie. Opmerkelijk is dat CoMP-SigLIP scores van 66,7 op ChartQA en 75,9 op DocVQA behaalt met een 0,5B LLM, terwijl het een nauwkeurigheid van 87,4% op ImageNet-1K en een 49,5 mIoU op ADE20K behoudt onder bevroren chunk evaluatie.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary