ChatPaper.aiChatPaper

ProCLIP: LLM 기반 임베더를 통한 점진적 시각-언어 정렬

ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

October 21, 2025
저자: Xiaoxing Hu, Kaicheng Yang, Ziyong Feng, Qi Ming, Zonghao Guo, Xiang An, Ziyong Feng, Junchi Yan, Xue Yang
cs.AI

초록

원본 CLIP 텍스트 인코더는 최대 77개의 토큰 입력 길이로 제한되어 있어, 긴 텍스트를 효과적으로 처리하고 세밀한 의미 이해를 수행하는 데 어려움을 겪습니다. 또한, CLIP 텍스트 인코더는 다국어 입력을 지원하지 않습니다. 이러한 제한 사항들은 다양한 작업에 대한 적용 가능성을 크게 제한합니다. 최근 연구에서는 CLIP 텍스트 인코더를 대체하여 LLM(Large Language Model) 기반 임베더를 사용함으로써 긴 텍스트 처리, 다국어 이해, 그리고 세밀한 의미 이해 능력을 향상시키려는 시도가 있었습니다. 그러나 LLM과 CLIP의 시각-언어 공간은 사전 학습 시 독립적으로 학습되며 정렬 사전 정보가 없기 때문에, 대조 학습을 통한 직접 정렬은 CLIP 이미지 인코더의 내재된 시각-언어 정렬을 방해하여 사전 학습 중 획득한 지식을 충분히 활용하지 못하게 합니다. 이러한 문제를 해결하기 위해, 우리는 ProCLIP을 제안합니다. ProCLIP은 커리큘럼 학습 기반의 점진적 시각-언어 정렬 프레임워크로, CLIP 이미지 인코더와 LLM 기반 임베더를 효과적으로 정렬합니다. 구체적으로, ProCLIP은 먼저 CLIP 텍스트 인코더의 지식을 LLM 기반 임베더로 전이하여 CLIP의 풍부한 사전 학습 지식을 활용하면서 LLM 임베더와 CLIP 이미지 인코더 간의 초기 정렬을 설정합니다. 이후, ProCLIP은 이미지-텍스트 대조 튜닝을 통해 CLIP 이미지 인코더와 LLM 기반 임베더를 추가로 정렬하며, 과적합을 방지하기 위해 자기 전이 정규화를 사용합니다. 더 효과적인 정렬을 위해, 표현 상속 및 대조 튜닝 과정에서 인스턴스 의미 정렬 손실과 임베딩 구조 정렬 손실을 적용합니다. 코드는 https://github.com/VisionXLab/ProCLIP에서 확인할 수 있습니다.
English
The original CLIP text encoder is limited by a maximum input length of 77 tokens, which hampers its ability to effectively process long texts and perform fine-grained semantic understanding. In addition, the CLIP text encoder lacks support for multilingual inputs. All these limitations significantly restrict its applicability across a broader range of tasks. Recent studies have attempted to replace the CLIP text encoder with an LLM-based embedder to enhance its ability in processing long texts, multilingual understanding, and fine-grained semantic comprehension. However, because the representation spaces of LLMs and the vision-language space of CLIP are pretrained independently without alignment priors, direct alignment using contrastive learning can disrupt the intrinsic vision-language alignment in the CLIP image encoder, leading to an underutilization of the knowledge acquired during pre-training. To address this challenge, we propose ProCLIP, a curriculum learning-based progressive vision-language alignment framework to effectively align the CLIP image encoder with an LLM-based embedder. Specifically, ProCLIP first distills knowledge from CLIP's text encoder into the LLM-based embedder to leverage CLIP's rich pretrained knowledge while establishing initial alignment between the LLM embedder and CLIP image encoder. Subsequently, ProCLIP further aligns the CLIP image encoder with the LLM-based embedder through image-text contrastive tuning, employing self-distillation regularization to avoid overfitting. To achieve a more effective alignment, instance semantic alignment loss and embedding structure alignment loss are employed during representation inheritance and contrastive tuning. The Code is available at https://github.com/VisionXLab/ProCLIP
PDF92October 22, 2025