CoMP: Непрерывное мультимодальное предобучение для базовых моделей компьютерного зрения
CoMP: Continual Multimodal Pre-training for Vision Foundation Models
March 24, 2025
Авторы: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Аннотация
Предварительно обученные базовые модели для обработки изображений (Vision Foundation Models, VFMs) обеспечивают мощные визуальные представления для широкого спектра задач. В данной работе мы продолжаем предварительное обучение популярных VFMs в мультимодальном режиме, чтобы они могли легко обрабатывать визуальные входные данные различных размеров и генерировать визуальные представления, более согласованные с языковыми, независимо от их исходного процесса предварительного обучения. Для этого мы представляем CoMP — тщательно разработанный конвейер мультимодального предварительного обучения. CoMP использует Continual Rotary Position Embedding для поддержки предварительного обучения на нативном разрешении и функцию потерь Alignment Loss между визуальными и текстовыми признаками через языковые прототипы для согласования мультимодальных представлений. Благодаря трехэтапному обучению наши VFMs демонстрируют значительные улучшения не только в мультимодальном понимании, но и в других задачах, таких как классификация и сегментация. Примечательно, что CoMP-SigLIP достигает показателей 66.7 на ChartQA и 75.9 на DocVQA с использованием языковой модели на 0.5 миллиарда параметров, сохраняя при этом точность 87.4% на ImageNet-1K и 49.5 mIoU на ADE20K в условиях замороженной оценки фрагментов.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual
representations for a wide range of applications. In this paper, we continually
pre-train prevailing VFMs in a multimodal manner such that they can
effortlessly process visual inputs of varying sizes and produce visual
representations that are more aligned with language representations, regardless
of their original pre-training process. To this end, we introduce CoMP, a
carefully designed multimodal pre-training pipeline. CoMP uses a Continual
Rotary Position Embedding to support native resolution continual pre-training,
and an Alignment Loss between visual and textual features through language
prototypes to align multimodal representations. By three-stage training, our
VFMs achieve remarkable improvements not only in multimodal understanding but
also in other downstream tasks such as classification and segmentation.
Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA
with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5
mIoU on ADE20K under frozen chunk evaluation.Summary
AI-Generated Summary