Allineamento Decoupled Globale-Locale per Migliorare la Comprensione Composizionale
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Autori: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Abstract
Il Contrastive Language-Image Pre-training (CLIP) ha ottenuto successo in molteplici task downstream allineando le modalità immagine e testo. Tuttavia, la natura dell'apprendimento contrastivo globale limita la capacità di CLIP di comprendere concetti composizionali, come relazioni e attributi. Sebbene studi recenti utilizzino campioni negativi globali difficili per migliorare la comprensione composizionale, questi metodi compromettono significativamente le capacità intrinseche del modello allontanando forzatamente i campioni testuali negativi dalle immagini nello spazio di embedding. Per superare questa limitazione, introduciamo un framework di Decoupled Global-Local Alignment (DeGLA) che migliora la comprensione composizionale mitigando sostanzialmente le perdite nelle capacità generali. Per ottimizzare la conservazione delle capacità intrinseche del modello, incorporiamo un meccanismo di auto-distillazione nel processo di allineamento globale, allineando l'encoder immagine-testo apprendibile con un modello insegnante congelato derivato da una media mobile esponenziale. Sotto il vincolo dell'auto-distillazione, si mitiga efficacemente la dimenticanza catastrofica della conoscenza pre-addestrata durante il fine-tuning. Per migliorare la comprensione composizionale, sfruttiamo prima la capacità di apprendimento in-context dei Large Language Models (LLMs) per costruire circa 2 milioni di didascalie negative di alta qualità in cinque tipologie. Successivamente, proponiamo la perdita Image-Grounded Contrast (IGC) e la perdita Text-Grounded Contrast (TGC) per migliorare la composizionalità visione-linguaggio. I risultati sperimentali estesi dimostrano l'efficacia del framework DeGLA. Rispetto ai precedenti metodi state-of-the-art, DeGLA ottiene un miglioramento medio del 3,5% sui benchmark VALSE, SugarCrepe e ARO. Contemporaneamente, registra un miglioramento medio delle prestazioni del 13,0% sui task di classificazione zero-shot su undici dataset. Il nostro codice sarà rilasciato su https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary