Alignement Global-Local Découplé pour Améliorer la Compréhension Compositionnelle
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Auteurs: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Résumé
Le pré-entraînement contrastif langue-image (CLIP) a obtenu des succès sur
plusieurs tâches en aval en alignant les modalités image et texte. Cependant, la
nature de l'apprentissage contrastif global limite la capacité de CLIP à
comprendre des concepts compositionnels, tels que les relations et les attributs.
Bien que des études récentes utilisent des échantillons négatifs globaux difficiles
pour améliorer la compréhension compositionnelle, ces méthodes compromettent
significativement les capacités générales inhérentes du modèle en éloignant
forcément les échantillons textuels négatifs des images dans l'espace d'embedding.
Pour surmonter cette limitation, nous introduisons un cadre d'Alignement
Global-Local Découplé (DeGLA) qui améliore la compréhension compositionnelle tout
en atténuant substantiellement les pertes de capacités générales. Pour optimiser
la rétention des capacités inhérentes du modèle, nous intégrons un mécanisme
d'auto-distillation dans le processus d'alignement global, alignant l'encodeur
image-texte apprenable avec un modèle enseignant figé dérivé d'une moyenne mobile
exponentielle. Sous la contrainte de l'auto-distillation, cela atténue efficacement
l'oubli catastrophique des connaissances pré-entraînées lors du fine-tuning. Pour
améliorer la compréhension compositionnelle, nous exploitons d'abord la capacité
d'apprentissage en contexte des modèles de langage de grande taille (LLMs) pour
construire environ 2 millions de légendes négatives de haute qualité réparties en
cinq types. Ensuite, nous proposons la perte de Contraste Ancré dans l'Image (IGC)
et la perte de Contraste Ancré dans le Texte (TGC) pour renforcer la compositionnalité
vision-langue. Les résultats expérimentaux approfondis démontrent l'efficacité du
cadre DeGLA. Par rapport aux méthodes précédentes de pointe, DeGLA obtient une
amélioration moyenne de 3,5 % sur les benchmarks VALSE, SugarCrepe et ARO.
Simultanément, il réalise une amélioration moyenne de 13,0 % sur les tâches de
classification zero-shot à travers onze jeux de données. Notre code sera publié à
l'adresse https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary