ChatPaper.aiChatPaper

Alignement Global-Local Découplé pour Améliorer la Compréhension Compositionnelle

Decoupled Global-Local Alignment for Improving Compositional Understanding

April 23, 2025
Auteurs: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI

Résumé

Le pré-entraînement contrastif langue-image (CLIP) a obtenu des succès sur plusieurs tâches en aval en alignant les modalités image et texte. Cependant, la nature de l'apprentissage contrastif global limite la capacité de CLIP à comprendre des concepts compositionnels, tels que les relations et les attributs. Bien que des études récentes utilisent des échantillons négatifs globaux difficiles pour améliorer la compréhension compositionnelle, ces méthodes compromettent significativement les capacités générales inhérentes du modèle en éloignant forcément les échantillons textuels négatifs des images dans l'espace d'embedding. Pour surmonter cette limitation, nous introduisons un cadre d'Alignement Global-Local Découplé (DeGLA) qui améliore la compréhension compositionnelle tout en atténuant substantiellement les pertes de capacités générales. Pour optimiser la rétention des capacités inhérentes du modèle, nous intégrons un mécanisme d'auto-distillation dans le processus d'alignement global, alignant l'encodeur image-texte apprenable avec un modèle enseignant figé dérivé d'une moyenne mobile exponentielle. Sous la contrainte de l'auto-distillation, cela atténue efficacement l'oubli catastrophique des connaissances pré-entraînées lors du fine-tuning. Pour améliorer la compréhension compositionnelle, nous exploitons d'abord la capacité d'apprentissage en contexte des modèles de langage de grande taille (LLMs) pour construire environ 2 millions de légendes négatives de haute qualité réparties en cinq types. Ensuite, nous proposons la perte de Contraste Ancré dans l'Image (IGC) et la perte de Contraste Ancré dans le Texte (TGC) pour renforcer la compositionnalité vision-langue. Les résultats expérimentaux approfondis démontrent l'efficacité du cadre DeGLA. Par rapport aux méthodes précédentes de pointe, DeGLA obtient une amélioration moyenne de 3,5 % sur les benchmarks VALSE, SugarCrepe et ARO. Simultanément, il réalise une amélioration moyenne de 13,0 % sur les tâches de classification zero-shot à travers onze jeux de données. Notre code sera publié à l'adresse https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP's ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model's inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model's inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

Summary

AI-Generated Summary

PDF152April 24, 2025