Preservación de las capacidades multi-modales de los VLM pre-entrenados para mejorar la composicionalidad visión-lingüística.
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
October 7, 2024
Autores: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI
Resumen
En este documento, proponemos un nuevo método para mejorar la comprensión composicional en modelos pre-entrenados de visión y lenguaje (VLMs) sin sacrificar el rendimiento en tareas multi-modales de cero disparo. Los enfoques tradicionales de ajuste fino a menudo mejoran el razonamiento composicional a expensas de degradar las capacidades multi-modales, principalmente debido al uso de pérdida global de negativos difíciles (HN), que contrasta las representaciones globales de imágenes y textos. Esta pérdida global de HN empuja a textos HN que son altamente similares a los originales, dañando las representaciones multi-modales del modelo. Para superar esta limitación, proponemos CLIP Calibrado Selectivo Fino (FSC-CLIP), que integra pérdida local de negativos difíciles y regularización selectiva calibrada. Estas innovaciones proporcionan supervisión negativa detallada mientras preservan la integridad representacional del modelo. Nuestras extensas evaluaciones en diversos puntos de referencia tanto para la composicionalidad como para las tareas multi-modales muestran que FSC-CLIP no solo logra composicionalidad al nivel de los modelos de última generación, sino que también conserva sólidas capacidades multi-modales. El código está disponible en: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding
in pre-trained vision and language models (VLMs) without sacrificing
performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches
often improve compositional reasoning at the cost of degrading multi-modal
capabilities, primarily due to the use of global hard negative (HN) loss, which
contrasts global representations of images and texts. This global HN loss
pushes HN texts that are highly similar to the original ones, damaging the
model's multi-modal representations. To overcome this limitation, we propose
Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard
negative loss and selective calibrated regularization. These innovations
provide fine-grained negative supervision while preserving the model's
representational integrity. Our extensive evaluations across diverse benchmarks
for both compositionality and multi-modal tasks show that FSC-CLIP not only
achieves compositionality on par with state-of-the-art models but also retains
strong multi-modal capabilities. Code is available at:
https://github.com/ytaek-oh/fsc-clip.