ChatPaper.aiChatPaper

CoMP: Preentrenamiento Multimodal Continuo para Modelos Fundacionales de Visión

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

March 24, 2025
Autores: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang
cs.AI

Resumen

Los modelos de visión preentrenados (VFMs, por sus siglas en inglés) ofrecen representaciones visuales robustas para una amplia gama de aplicaciones. En este artículo, realizamos un preentrenamiento continuo de los VFMs predominantes de manera multimodal, de modo que puedan procesar sin esfuerzo entradas visuales de diversos tamaños y generar representaciones visuales más alineadas con las representaciones lingüísticas, independientemente de su proceso de preentrenamiento original. Para ello, presentamos CoMP, una pipeline de preentrenamiento multimodal cuidadosamente diseñada. CoMP utiliza una Incrustación de Posición Rotatoria Continua para soportar el preentrenamiento continuo en resolución nativa, y una Pérdida de Alineación entre características visuales y textuales a través de prototipos lingüísticos para alinear las representaciones multimodales. Mediante un entrenamiento en tres etapas, nuestros VFMs logran mejoras notables no solo en la comprensión multimodal, sino también en otras tareas posteriores como la clasificación y la segmentación. Destacablemente, CoMP-SigLIP alcanza puntuaciones de 66.7 en ChartQA y 75.9 en DocVQA con un LLM de 0.5B, manteniendo una precisión del 87.4% en ImageNet-1K y un 49.5 mIoU en ADE20K bajo evaluación de fragmentos congelados.
English
Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.

Summary

AI-Generated Summary

PDF301March 26, 2025