CoMP:ビジョンファウンデーションモデルのための継続的マルチモーダル事前学習
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
著者: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
要旨
事前学習済みの視覚基盤モデル(VFMs)は、幅広いアプリケーションに対して強力な視覚表現を提供します。本論文では、主流のVFMsをマルチモーダルな方法で継続的に事前学習し、元の事前学習プロセスに関わらず、さまざまなサイズの視覚入力を容易に処理し、言語表現とより整合性の高い視覚表現を生成できるようにします。この目的のために、我々はCoMPという慎重に設計されたマルチモーダル事前学習パイプラインを導入します。CoMPは、ネイティブ解像度での継続的事前学習をサポートするための継続的ロータリーポジション埋め込みと、言語プロトタイプを通じた視覚的特徴とテキスト的特徴の間の整合性損失を使用して、マルチモーダル表現を整列させます。3段階のトレーニングにより、我々のVFMsはマルチモーダル理解だけでなく、分類やセグメンテーションなどの他の下流タスクでも顕著な改善を達成します。特に、CoMP-SigLIPは0.5BのLLMを使用して、ChartQAで66.7、DocVQAで75.9のスコアを達成し、凍結チャンク評価下でImageNet-1Kで87.4%の精度、ADE20Kで49.5のmIoUを維持します。
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary