Alinhamento Global-Local Desacoplado para Melhorar a Compreensão Composicional
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Autores: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Resumo
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) tem obtido sucesso em múltiplas tarefas subsequentes ao alinhar as modalidades de imagem e texto. No entanto, a natureza do aprendizado contrastivo global limita a capacidade do CLIP de compreender conceitos composicionais, como relações e atributos. Embora estudos recentes empreguem amostras negativas globais difíceis para melhorar a compreensão composicional, esses métodos comprometem significativamente as capacidades gerais inerentes do modelo ao distanciar forçadamente amostras textuais negativas das imagens no espaço de incorporação. Para superar essa limitação, introduzimos um framework de Alinhamento Global-Local Desacoplado (DeGLA) que melhora a compreensão composicional enquanto mitiga substancialmente as perdas nas capacidades gerais. Para otimizar a retenção das capacidades inerentes do modelo, incorporamos um mecanismo de auto-distilação no processo de alinhamento global, alinhando o codificador de imagem-texto aprendível com um modelo professor congelado derivado de uma média móvel exponencial. Sob a restrição da auto-distilação, ele mitiga efetivamente o esquecimento catastrófico do conhecimento pré-treinado durante o ajuste fino. Para melhorar a compreensão composicional, primeiro aproveitamos a capacidade de aprendizado em contexto dos Modelos de Linguagem de Grande Escala (LLMs) para construir cerca de 2 milhões de legendas negativas de alta qualidade em cinco tipos. Posteriormente, propomos a perda de Contraste Baseado em Imagem (IGC) e a perda de Contraste Baseado em Texto (TGC) para aprimorar a composicionalidade visão-linguagem. Resultados experimentais extensivos demonstram a eficácia do framework DeGLA. Em comparação com os métodos state-of-the-art anteriores, o DeGLA alcança um aprimoramento médio de 3,5% nos benchmarks VALSE, SugarCrepe e ARO. Simultaneamente, obtém uma melhoria média de desempenho de 13,0% em tarefas de classificação zero-shot em onze conjuntos de dados. Nosso código será liberado em https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary