ProCLIP : Alignement progressif vision-langage via un intégrateur basé sur un modèle de langage de grande taille
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder
October 21, 2025
papers.authors: Xiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang
cs.AI
papers.abstract
L'encodeur de texte original de CLIP est limité par une longueur maximale d'entrée de 77 tokens, ce qui entrave sa capacité à traiter efficacement des textes longs et à effectuer une compréhension sémantique fine. De plus, l'encodeur de texte de CLIP ne prend pas en charge les entrées multilingues. Toutes ces limitations restreignent considérablement son applicabilité à un éventail plus large de tâches. Des études récentes ont tenté de remplacer l'encodeur de texte de CLIP par un encodeur basé sur un modèle de langage de grande taille (LLM) pour améliorer sa capacité à traiter des textes longs, à comprendre plusieurs langues et à saisir des nuances sémantiques fines. Cependant, comme les espaces de représentation des LLM et l'espace vision-langage de CLIP sont pré-entraînés indépendamment sans alignement préalable, un alignement direct utilisant l'apprentissage contrastif peut perturber l'alignement intrinsèque vision-langage dans l'encodeur d'images de CLIP, conduisant à une sous-utilisation des connaissances acquises lors du pré-entraînement. Pour relever ce défi, nous proposons ProCLIP, un cadre d'alignement progressif vision-langage basé sur l'apprentissage curriculaire, afin d'aligner efficacement l'encodeur d'images de CLIP avec un encodeur basé sur un LLM. Plus précisément, ProCLIP distille d'abord les connaissances de l'encodeur de texte de CLIP dans l'encodeur basé sur un LLM pour tirer parti des riches connaissances pré-entraînées de CLIP tout en établissant un alignement initial entre l'encodeur LLM et l'encodeur d'images de CLIP. Ensuite, ProCLIP aligne davantage l'encodeur d'images de CLIP avec l'encodeur basé sur un LLM grâce à un réglage contrastif image-texte, en employant une régularisation par auto-distillation pour éviter le surajustement. Pour parvenir à un alignement plus efficace, une perte d'alignement sémantique par instance et une perte d'alignement de la structure des embeddings sont utilisées lors de l'héritage des représentations et du réglage contrastif. Le code est disponible à l'adresse suivante : https://github.com/VisionXLab/ProCLIP.
English
The original CLIP text encoder is limited by a maximum input length of 77
tokens, which hampers its ability to effectively process long texts and perform
fine-grained semantic understanding. In addition, the CLIP text encoder lacks
support for multilingual inputs. All these limitations significantly restrict
its applicability across a broader range of tasks. Recent studies have
attempted to replace the CLIP text encoder with an LLM-based embedder to
enhance its ability in processing long texts, multilingual understanding, and
fine-grained semantic comprehension. However, because the representation spaces
of LLMs and the vision-language space of CLIP are pretrained independently
without alignment priors, direct alignment using contrastive learning can
disrupt the intrinsic vision-language alignment in the CLIP image encoder,
leading to an underutilization of the knowledge acquired during pre-training.
To address this challenge, we propose ProCLIP, a curriculum learning-based
progressive vision-language alignment framework to effectively align the CLIP
image encoder with an LLM-based embedder. Specifically, ProCLIP first distills
knowledge from CLIP's text encoder into the LLM-based embedder to leverage
CLIP's rich pretrained knowledge while establishing initial alignment between
the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns
the CLIP image encoder with the LLM-based embedder through image-text
contrastive tuning, employing self-distillation regularization to avoid
overfitting. To achieve a more effective alignment, instance semantic alignment
loss and embedding structure alignment loss are employed during representation
inheritance and contrastive tuning. The Code is available at
https://github.com/VisionXLab/ProCLIP