ChatPaper.aiChatPaper

CoMP : Pré-entraînement multimodal continu pour les modèles de base en vision

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

March 24, 2025
Auteurs: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Résumé

Les modèles de fondation visuelle pré-entraînés (VFMs) fournissent des représentations visuelles robustes pour un large éventail d'applications. Dans cet article, nous procédons à un pré-entraînement continu des VFMs dominants de manière multimodale, afin qu'ils puissent traiter sans effort des entrées visuelles de tailles variées et produire des représentations visuelles plus alignées avec les représentations linguistiques, indépendamment de leur processus de pré-entraînement initial. À cette fin, nous introduisons CoMP, un pipeline de pré-entraînement multimodal soigneusement conçu. CoMP utilise un Positionnement Rotatif Continu pour supporter un pré-entraînement continu à la résolution native, et une Perte d'Alignement entre les caractéristiques visuelles et textuelles via des prototypes linguistiques pour aligner les représentations multimodales. Grâce à un entraînement en trois étapes, nos VFMs atteignent des améliorations remarquables non seulement dans la compréhension multimodale, mais aussi dans d'autres tâches en aval telles que la classification et la segmentation. De manière notable, CoMP-SigLIP obtient des scores de 66,7 sur ChartQA et 75,9 sur DocVQA avec un LLM de 0,5 milliard, tout en maintenant une précision de 87,4 % sur ImageNet-1K et un mIoU de 49,5 sur ADE20K sous évaluation par segments gelés.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.

Summary

AI-Generated Summary

PDF301March 26, 2025