구성적 이해 향상을 위한 분리된 글로벌-로컬 정렬
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
저자: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
초록
대조적 언어-이미지 사전학습(CLIP)은 이미지와 텍스트 양식을 정렬함으로써 여러 하위 작업에서 성공을 거두었습니다. 그러나 전역 대조 학습의 특성상 CLIP은 관계와 속성과 같은 구성적 개념을 이해하는 데 한계가 있습니다. 최근 연구에서는 구성적 이해를 개선하기 위해 전역 하드 네거티브 샘플을 사용하지만, 이러한 방법들은 임베딩 공간에서 텍스트 네거티브 샘플을 이미지와 강제로 멀리 떨어뜨림으로써 모델의 본질적인 일반 능력을 크게 저해합니다. 이러한 한계를 극복하기 위해, 우리는 구성적 이해를 개선하면서 일반 능력의 손실을 상당히 완화하는 분리된 전역-지역 정렬(DeGLA) 프레임워크를 소개합니다. 모델의 본질적인 능력을 최적화하기 위해, 우리는 전역 정렬 과정 내에 자기 지식 증류 메커니즘을 통합하여, 학습 가능한 이미지-텍스트 인코더를 지수 이동 평균에서 파생된 고정된 교사 모델과 정렬합니다. 자기 지식 증류의 제약 하에서, 이는 미세 조정 중 사전 학습된 지식의 치명적인 망각을 효과적으로 완화합니다. 구성적 이해를 개선하기 위해, 우리는 먼저 대형 언어 모델(LLM)의 문맥 내 학습 능력을 활용하여 다섯 가지 유형에 걸쳐 약 2백만 개의 고품질 네거티브 캡션을 구성합니다. 이후, 우리는 시각-언어 구성성을 강화하기 위해 이미지 기반 대조(IGC) 손실과 텍스트 기반 대조(TGC) 손실을 제안합니다. 광범위한 실험 결과는 DeGLA 프레임워크의 효과를 입증합니다. 이전의 최신 방법과 비교하여, DeGLA는 VALSE, SugarCrepe, ARO 벤치마크에서 평균 3.5%의 향상을 달성합니다. 동시에, 11개 데이터셋에 걸친 제로샷 분류 작업에서 평균 13.0%의 성능 향상을 얻습니다. 우리의 코드는 https://github.com/xiaoxing2001/DeGLA에서 공개될 예정입니다.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary