ChatPaper.aiChatPaper

Allineamento Decoupled Globale-Locale per Migliorare la Comprensione Composizionale

Decoupled Global-Local Alignment for Improving Compositional Understanding

April 23, 2025
Autori: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI

Abstract

Il Contrastive Language-Image Pre-training (CLIP) ha ottenuto successo in molteplici task downstream allineando le modalità immagine e testo. Tuttavia, la natura dell'apprendimento contrastivo globale limita la capacità di CLIP di comprendere concetti composizionali, come relazioni e attributi. Sebbene studi recenti utilizzino campioni negativi globali difficili per migliorare la comprensione composizionale, questi metodi compromettono significativamente le capacità intrinseche del modello allontanando forzatamente i campioni testuali negativi dalle immagini nello spazio di embedding. Per superare questa limitazione, introduciamo un framework di Decoupled Global-Local Alignment (DeGLA) che migliora la comprensione composizionale mitigando sostanzialmente le perdite nelle capacità generali. Per ottimizzare la conservazione delle capacità intrinseche del modello, incorporiamo un meccanismo di auto-distillazione nel processo di allineamento globale, allineando l'encoder immagine-testo apprendibile con un modello insegnante congelato derivato da una media mobile esponenziale. Sotto il vincolo dell'auto-distillazione, si mitiga efficacemente la dimenticanza catastrofica della conoscenza pre-addestrata durante il fine-tuning. Per migliorare la comprensione composizionale, sfruttiamo prima la capacità di apprendimento in-context dei Large Language Models (LLMs) per costruire circa 2 milioni di didascalie negative di alta qualità in cinque tipologie. Successivamente, proponiamo la perdita Image-Grounded Contrast (IGC) e la perdita Text-Grounded Contrast (TGC) per migliorare la composizionalità visione-linguaggio. I risultati sperimentali estesi dimostrano l'efficacia del framework DeGLA. Rispetto ai precedenti metodi state-of-the-art, DeGLA ottiene un miglioramento medio del 3,5% sui benchmark VALSE, SugarCrepe e ARO. Contemporaneamente, registra un miglioramento medio delle prestazioni del 13,0% sui task di classificazione zero-shot su undici dataset. Il nostro codice sarà rilasciato su https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP's ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model's inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model's inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

Summary

AI-Generated Summary

PDF152April 24, 2025