CoMP: 비전 파운데이션 모델을 위한 지속적 멀티모달 사전 학습
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
저자: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
초록
사전 학습된 비전 기반 모델(Vision Foundation Models, VFMs)은 다양한 애플리케이션에 강력한 시각적 표현을 제공합니다. 본 논문에서는 기존의 VFM을 멀티모달 방식으로 지속적으로 사전 학습시켜, 원래의 사전 학습 과정과 관계없이 다양한 크기의 시각적 입력을 쉽게 처리하고 언어 표현과 더욱 정렬된 시각적 표현을 생성할 수 있도록 합니다. 이를 위해, 우리는 CoMP라는 신중하게 설계된 멀티모달 사전 학습 파이프라인을 소개합니다. CoMP는 원본 해상도에서의 지속적 사전 학습을 지원하기 위한 Continual Rotary Position Embedding과 언어 프로토타입을 통한 시각 및 텍스트 특징 간의 Alignment Loss를 사용하여 멀티모달 표현을 정렬합니다. 3단계 학습을 통해, 우리의 VFM은 멀티모달 이해뿐만 아니라 분류 및 세분화와 같은 다른 다운스트림 작업에서도 뛰어난 개선을 달성합니다. 특히, CoMP-SigLIP은 0.5B 규모의 LLM을 사용하여 ChartQA에서 66.7점, DocVQA에서 75.9점을 기록하면서도, 고정된 청크 평가에서 ImageNet-1K에서 87.4%의 정확도와 ADE20K에서 49.5 mIoU를 유지합니다.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary