Alinhamento Global-Local Desacoplado para Melhorar a Compreensão Composicional

Resumo

O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) tem obtido sucesso em múltiplas tarefas subsequentes ao alinhar as modalidades de imagem e texto. No entanto, a natureza do aprendizado contrastivo global limita a capacidade do CLIP de compreender conceitos composicionais, como relações e atributos. Embora estudos recentes empreguem amostras negativas globais difíceis para melhorar a compreensão composicional, esses métodos comprometem significativamente as capacidades gerais inerentes do modelo ao distanciar forçadamente amostras textuais negativas das imagens no espaço de incorporação. Para superar essa limitação, introduzimos um framework de Alinhamento Global-Local Desacoplado (DeGLA) que melhora a compreensão composicional enquanto mitiga substancialmente as perdas nas capacidades gerais. Para otimizar a retenção das capacidades inerentes do modelo, incorporamos um mecanismo de auto-distilação no processo de alinhamento global, alinhando o codificador de imagem-texto aprendível com um modelo professor congelado derivado de uma média móvel exponencial. Sob a restrição da auto-distilação, ele mitiga efetivamente o esquecimento catastrófico do conhecimento pré-treinado durante o ajuste fino. Para melhorar a compreensão composicional, primeiro aproveitamos a capacidade de aprendizado em contexto dos Modelos de Linguagem de Grande Escala (LLMs) para construir cerca de 2 milhões de legendas negativas de alta qualidade em cinco tipos. Posteriormente, propomos a perda de Contraste Baseado em Imagem (IGC) e a perda de Contraste Baseado em Texto (TGC) para aprimorar a composicionalidade visão-linguagem. Resultados experimentais extensivos demonstram a eficácia do framework DeGLA. Em comparação com os métodos state-of-the-art anteriores, o DeGLA alcança um aprimoramento médio de 3,5% nos benchmarks VALSE, SugarCrepe e ARO. Simultaneamente, obtém uma melhoria média de desempenho de 13,0% em tarefas de classificação zero-shot em onze conjuntos de dados. Nosso código será liberado em https://github.com/xiaoxing2001/DeGLA.

English

Contrastive Language-Image Pre-training (CLIP) has achieved success on multiple downstream tasks by aligning image and text modalities. However, the nature of global contrastive learning limits CLIP's ability to comprehend compositional concepts, such as relations and attributes. Although recent studies employ global hard negative samples to improve compositional understanding, these methods significantly compromise the model's inherent general capabilities by forcibly distancing textual negative samples from images in the embedding space. To overcome this limitation, we introduce a Decoupled Global-Local Alignment (DeGLA) framework that improves compositional understanding while substantially mitigating losses in general capabilities. To optimize the retention of the model's inherent capabilities, we incorporate a self-distillation mechanism within the global alignment process, aligning the learnable image-text encoder with a frozen teacher model derived from an exponential moving average. Under the constraint of self-distillation, it effectively mitigates the catastrophic forgetting of pretrained knowledge during fine-tuning. To improve compositional understanding, we first leverage the in-context learning capability of Large Language Models (LLMs) to construct about 2M high-quality negative captions across five types. Subsequently, we propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC) loss to enhance vision-language compositionally. Extensive experimental results demonstrate the effectiveness of the DeGLA framework. Compared to previous state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average performance improvement of 13.0% on zero-shot classification tasks across eleven datasets. Our code will be released at https://github.com/xiaoxing2001/DeGLA

Alinhamento Global-Local Desacoplado para Melhorar a Compreensão Composicional

Decoupled Global-Local Alignment for Improving Compositional Understanding

Resumo

Support