ChatPaper.aiChatPaper

ProCLIP: Allineamento Progressivo Visione-Linguaggio tramite Embedder basato su LLM

ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

October 21, 2025
Autori: Xiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang
cs.AI

Abstract

Il codificatore di testo originale di CLIP è limitato da una lunghezza massima di input di 77 token, il che ne ostacola la capacità di elaborare efficacemente testi lunghi e di eseguire una comprensione semantica fine. Inoltre, il codificatore di testo di CLIP non supporta input multilingue. Tutte queste limitazioni riducono significativamente la sua applicabilità in un'ampia gamma di compiti. Studi recenti hanno tentato di sostituire il codificatore di testo di CLIP con un embedder basato su LLM (Large Language Model) per migliorarne la capacità di elaborare testi lunghi, la comprensione multilingue e la comprensione semantica fine. Tuttavia, poiché gli spazi di rappresentazione degli LLM e lo spazio visione-linguaggio di CLIP sono pre-addestrati in modo indipendente senza priorità di allineamento, un allineamento diretto utilizzando l'apprendimento contrastivo può compromettere l'allineamento intrinseco visione-linguaggio nel codificatore di immagini di CLIP, portando a un sottoutilizzo delle conoscenze acquisite durante il pre-addestramento. Per affrontare questa sfida, proponiamo ProCLIP, un framework progressivo di allineamento visione-linguaggio basato sull'apprendimento curriculare, per allineare efficacemente il codificatore di immagini di CLIP con un embedder basato su LLM. Nello specifico, ProCLIP prima distilla la conoscenza dal codificatore di testo di CLIP nell'embedder basato su LLM per sfruttare le ricche conoscenze pre-addestrate di CLIP, stabilendo al contempo un allineamento iniziale tra l'embedder LLM e il codificatore di immagini di CLIP. Successivamente, ProCLIP allinea ulteriormente il codificatore di immagini di CLIP con l'embedder basato su LLM attraverso la messa a punto contrastiva immagine-testo, impiegando la regolarizzazione di auto-distillazione per evitare l'overfitting. Per ottenere un allineamento più efficace, durante l'eredità della rappresentazione e la messa a punto contrastiva vengono utilizzati la perdita di allineamento semantico delle istanze e la perdita di allineamento della struttura degli embedding. Il codice è disponibile all'indirizzo https://github.com/VisionXLab/ProCLIP.
English
The original CLIP text encoder is limited by a maximum input length of 77 tokens, which hampers its ability to effectively process long texts and perform fine-grained semantic understanding. In addition, the CLIP text encoder lacks support for multilingual inputs. All these limitations significantly restrict its applicability across a broader range of tasks. Recent studies have attempted to replace the CLIP text encoder with an LLM-based embedder to enhance its ability in processing long texts, multilingual understanding, and fine-grained semantic comprehension. However, because the representation spaces of LLMs and the vision-language space of CLIP are pretrained independently without alignment priors, direct alignment using contrastive learning can disrupt the intrinsic vision-language alignment in the CLIP image encoder, leading to an underutilization of the knowledge acquired during pre-training. To address this challenge, we propose ProCLIP, a curriculum learning-based progressive vision-language alignment framework to effectively align the CLIP image encoder with an LLM-based embedder. Specifically, ProCLIP first distills knowledge from CLIP's text encoder into the LLM-based embedder to leverage CLIP's rich pretrained knowledge while establishing initial alignment between the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns the CLIP image encoder with the LLM-based embedder through image-text contrastive tuning, employing self-distillation regularization to avoid overfitting. To achieve a more effective alignment, instance semantic alignment loss and embedding structure alignment loss are employed during representation inheritance and contrastive tuning. The Code is available at https://github.com/VisionXLab/ProCLIP
PDF92October 22, 2025