ProCLIP : Alignement progressif vision-langage via un intégrateur basé sur un modèle de langage de grande taille

papers.abstract

L'encodeur de texte original de CLIP est limité par une longueur maximale d'entrée de 77 tokens, ce qui entrave sa capacité à traiter efficacement des textes longs et à effectuer une compréhension sémantique fine. De plus, l'encodeur de texte de CLIP ne prend pas en charge les entrées multilingues. Toutes ces limitations restreignent considérablement son applicabilité à un éventail plus large de tâches. Des études récentes ont tenté de remplacer l'encodeur de texte de CLIP par un encodeur basé sur un modèle de langage de grande taille (LLM) pour améliorer sa capacité à traiter des textes longs, à comprendre plusieurs langues et à saisir des nuances sémantiques fines. Cependant, comme les espaces de représentation des LLM et l'espace vision-langage de CLIP sont pré-entraînés indépendamment sans alignement préalable, un alignement direct utilisant l'apprentissage contrastif peut perturber l'alignement intrinsèque vision-langage dans l'encodeur d'images de CLIP, conduisant à une sous-utilisation des connaissances acquises lors du pré-entraînement. Pour relever ce défi, nous proposons ProCLIP, un cadre d'alignement progressif vision-langage basé sur l'apprentissage curriculaire, afin d'aligner efficacement l'encodeur d'images de CLIP avec un encodeur basé sur un LLM. Plus précisément, ProCLIP distille d'abord les connaissances de l'encodeur de texte de CLIP dans l'encodeur basé sur un LLM pour tirer parti des riches connaissances pré-entraînées de CLIP tout en établissant un alignement initial entre l'encodeur LLM et l'encodeur d'images de CLIP. Ensuite, ProCLIP aligne davantage l'encodeur d'images de CLIP avec l'encodeur basé sur un LLM grâce à un réglage contrastif image-texte, en employant une régularisation par auto-distillation pour éviter le surajustement. Pour parvenir à un alignement plus efficace, une perte d'alignement sémantique par instance et une perte d'alignement de la structure des embeddings sont utilisées lors de l'héritage des représentations et du réglage contrastif. Le code est disponible à l'adresse suivante : https://github.com/VisionXLab/ProCLIP.

English

The original CLIP text encoder is limited by a maximum input length of 77 tokens, which hampers its ability to effectively process long texts and perform fine-grained semantic understanding. In addition, the CLIP text encoder lacks support for multilingual inputs. All these limitations significantly restrict its applicability across a broader range of tasks. Recent studies have attempted to replace the CLIP text encoder with an LLM-based embedder to enhance its ability in processing long texts, multilingual understanding, and fine-grained semantic comprehension. However, because the representation spaces of LLMs and the vision-language space of CLIP are pretrained independently without alignment priors, direct alignment using contrastive learning can disrupt the intrinsic vision-language alignment in the CLIP image encoder, leading to an underutilization of the knowledge acquired during pre-training. To address this challenge, we propose ProCLIP, a curriculum learning-based progressive vision-language alignment framework to effectively align the CLIP image encoder with an LLM-based embedder. Specifically, ProCLIP first distills knowledge from CLIP's text encoder into the LLM-based embedder to leverage CLIP's rich pretrained knowledge while establishing initial alignment between the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns the CLIP image encoder with the LLM-based embedder through image-text contrastive tuning, employing self-distillation regularization to avoid overfitting. To achieve a more effective alignment, instance semantic alignment loss and embedding structure alignment loss are employed during representation inheritance and contrastive tuning. The Code is available at https://github.com/VisionXLab/ProCLIP

ProCLIP : Alignement progressif vision-langage via un intégrateur basé sur un modèle de langage de grande taille

ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

papers.abstract

Support