CoMP: Pré-treinamento Multimodal Contínuo para Modelos de Base Visuais
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
Autores: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
Modelos de Fundação Visual Pré-treinados (VFMs) fornecem representações visuais robustas para uma ampla gama de aplicações. Neste artigo, realizamos o pré-treinamento contínuo de VFMs predominantes de maneira multimodal, de forma que eles possam processar facilmente entradas visuais de tamanhos variados e produzir representações visuais mais alinhadas com representações linguísticas, independentemente de seu processo de pré-treinamento original. Para isso, introduzimos o CoMP, um pipeline de pré-treinamento multimodal cuidadosamente projetado. O CoMP utiliza uma Incorporação de Posição Rotacional Contínua para suportar o pré-treinamento contínuo em resolução nativa, e uma Função de Perda de Alinhamento entre características visuais e textuais por meio de protótipos linguísticos para alinhar representações multimodais. Através de um treinamento em três estágios, nossos VFMs alcançam melhorias notáveis não apenas na compreensão multimodal, mas também em outras tarefas subsequentes, como classificação e segmentação. Notavelmente, o CoMP-SigLIP alcança pontuações de 66,7 no ChartQA e 75,9 no DocVQA com um LLM de 0,5B, mantendo uma precisão de 87,4% no ImageNet-1K e um mIoU de 49,5 no ADE20K sob avaliação de chunk congelado.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary