ChatPaper.aiChatPaper

CoMP: Kontinuierliches multimodales Pre-Training für visuelle Basismodelle

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

March 24, 2025
Autoren: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Zusammenfassung

Vortrainierte Vision Foundation Models (VFMs) bieten starke visuelle Repräsentationen für eine Vielzahl von Anwendungen. In diesem Artikel trainieren wir vorherrschende VFMs kontinuierlich auf multimodale Weise weiter, sodass sie visuelle Eingaben unterschiedlicher Größe mühelos verarbeiten und visuelle Repräsentationen erzeugen können, die stärker an Sprachrepräsentationen angepasst sind, unabhängig von ihrem ursprünglichen Vortrainingsprozess. Zu diesem Zweck führen wir CoMP ein, eine sorgfältig konzipierte multimodale Vortrainingspipeline. CoMP verwendet eine Continual Rotary Position Embedding, um natives Auflösungs-Continuierliches Vortraining zu unterstützen, sowie einen Alignment Loss zwischen visuellen und textuellen Merkmalen durch Sprachprototypen, um multimodale Repräsentationen auszurichten. Durch ein dreistufiges Training erzielen unsere VFMs bemerkenswerte Verbesserungen nicht nur im multimodalen Verständnis, sondern auch in anderen nachgelagerten Aufgaben wie Klassifikation und Segmentierung. Bemerkenswerterweise erreicht CoMP-SigLIP Werte von 66,7 auf ChartQA und 75,9 auf DocVQA mit einem 0,5B LLM, während es eine Genauigkeit von 87,4 % auf ImageNet-1K und ein mIoU von 49,5 auf ADE20K unter gefrorener Chunk-Evaluierung beibehält.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.

Summary

AI-Generated Summary

PDF301March 26, 2025