ProCLIP: Allineamento Progressivo Visione-Linguaggio tramite Embedder basato su LLM
ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder
October 21, 2025
Autori: Xiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang
cs.AI
Abstract
Il codificatore di testo originale di CLIP è limitato da una lunghezza massima di input di 77 token, il che ne ostacola la capacità di elaborare efficacemente testi lunghi e di eseguire una comprensione semantica fine. Inoltre, il codificatore di testo di CLIP non supporta input multilingue. Tutte queste limitazioni riducono significativamente la sua applicabilità in un'ampia gamma di compiti. Studi recenti hanno tentato di sostituire il codificatore di testo di CLIP con un embedder basato su LLM (Large Language Model) per migliorarne la capacità di elaborare testi lunghi, la comprensione multilingue e la comprensione semantica fine. Tuttavia, poiché gli spazi di rappresentazione degli LLM e lo spazio visione-linguaggio di CLIP sono pre-addestrati in modo indipendente senza priorità di allineamento, un allineamento diretto utilizzando l'apprendimento contrastivo può compromettere l'allineamento intrinseco visione-linguaggio nel codificatore di immagini di CLIP, portando a un sottoutilizzo delle conoscenze acquisite durante il pre-addestramento. Per affrontare questa sfida, proponiamo ProCLIP, un framework progressivo di allineamento visione-linguaggio basato sull'apprendimento curriculare, per allineare efficacemente il codificatore di immagini di CLIP con un embedder basato su LLM. Nello specifico, ProCLIP prima distilla la conoscenza dal codificatore di testo di CLIP nell'embedder basato su LLM per sfruttare le ricche conoscenze pre-addestrate di CLIP, stabilendo al contempo un allineamento iniziale tra l'embedder LLM e il codificatore di immagini di CLIP. Successivamente, ProCLIP allinea ulteriormente il codificatore di immagini di CLIP con l'embedder basato su LLM attraverso la messa a punto contrastiva immagine-testo, impiegando la regolarizzazione di auto-distillazione per evitare l'overfitting. Per ottenere un allineamento più efficace, durante l'eredità della rappresentazione e la messa a punto contrastiva vengono utilizzati la perdita di allineamento semantico delle istanze e la perdita di allineamento della struttura degli embedding. Il codice è disponibile all'indirizzo https://github.com/VisionXLab/ProCLIP.
English
The original CLIP text encoder is limited by a maximum input length of 77
tokens, which hampers its ability to effectively process long texts and perform
fine-grained semantic understanding. In addition, the CLIP text encoder lacks
support for multilingual inputs. All these limitations significantly restrict
its applicability across a broader range of tasks. Recent studies have
attempted to replace the CLIP text encoder with an LLM-based embedder to
enhance its ability in processing long texts, multilingual understanding, and
fine-grained semantic comprehension. However, because the representation spaces
of LLMs and the vision-language space of CLIP are pretrained independently
without alignment priors, direct alignment using contrastive learning can
disrupt the intrinsic vision-language alignment in the CLIP image encoder,
leading to an underutilization of the knowledge acquired during pre-training.
To address this challenge, we propose ProCLIP, a curriculum learning-based
progressive vision-language alignment framework to effectively align the CLIP
image encoder with an LLM-based embedder. Specifically, ProCLIP first distills
knowledge from CLIP's text encoder into the LLM-based embedder to leverage
CLIP's rich pretrained knowledge while establishing initial alignment between
the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns
the CLIP image encoder with the LLM-based embedder through image-text
contrastive tuning, employing self-distillation regularization to avoid
overfitting. To achieve a more effective alignment, instance semantic alignment
loss and embedding structure alignment loss are employed during representation
inheritance and contrastive tuning. The Code is available at
https://github.com/VisionXLab/ProCLIP