Het behouden van de multimodale mogelijkheden van vooraf getrainde VLM's ter verbetering van de visueel-linguïstische samenstelbaarheid.
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
October 7, 2024
Auteurs: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI
Samenvatting
In dit artikel stellen we een nieuwe methode voor om de compositionele begripsvorming te verbeteren in vooraf getrainde visie- en taalmodellen (VLM's) zonder prestatieverlies bij zero-shot multi-modale taken. Traditionele fine-tuning benaderingen verbeteren vaak compositioneel redeneren ten koste van degradatie van multi-modale mogelijkheden, voornamelijk door het gebruik van globaal hard negatief (HN) verlies, dat globale representaties van afbeeldingen en teksten contrasteert. Dit globale HN verlies duwt HN-teksten die sterk lijken op de originele, waardoor de multi-modale representaties van het model worden beschadigd. Om deze beperking te overwinnen, stellen we Fine-grained Selective Calibrated CLIP (FSC-CLIP) voor, dat lokale hard negatief verlies en selectieve gekalibreerde regulering integreert. Deze innovaties bieden fijnmazig negatief toezicht terwijl de representatieve integriteit van het model behouden blijft. Onze uitgebreide evaluaties over diverse benchmarks voor zowel compositionele als multi-modale taken tonen aan dat FSC-CLIP niet alleen compositionele prestaties behaalt die vergelijkbaar zijn met state-of-the-art modellen, maar ook sterke multi-modale mogelijkheden behoudt. De code is beschikbaar op: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding
in pre-trained vision and language models (VLMs) without sacrificing
performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches
often improve compositional reasoning at the cost of degrading multi-modal
capabilities, primarily due to the use of global hard negative (HN) loss, which
contrasts global representations of images and texts. This global HN loss
pushes HN texts that are highly similar to the original ones, damaging the
model's multi-modal representations. To overcome this limitation, we propose
Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard
negative loss and selective calibrated regularization. These innovations
provide fine-grained negative supervision while preserving the model's
representational integrity. Our extensive evaluations across diverse benchmarks
for both compositionality and multi-modal tasks show that FSC-CLIP not only
achieves compositionality on par with state-of-the-art models but also retains
strong multi-modal capabilities. Code is available at:
https://github.com/ytaek-oh/fsc-clip.