Alineación Global-Local Desacoplada para Mejorar la Comprensión Composicional
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Autores: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Resumen
El preentrenamiento de contraste lenguaje-imagen (CLIP, por sus siglas en inglés) ha logrado éxito en múltiples tareas posteriores al alinear las modalidades de imagen y texto. Sin embargo, la naturaleza del aprendizaje contrastivo global limita la capacidad de CLIP para comprender conceptos composicionales, como relaciones y atributos. Aunque estudios recientes emplean muestras negativas globales difíciles para mejorar la comprensión composicional, estos métodos comprometen significativamente las capacidades generales inherentes del modelo al distanciar forzosamente las muestras negativas textuales de las imágenes en el espacio de incrustación. Para superar esta limitación, introducimos un marco de Alineación Global-Local Desacoplada (DeGLA, por sus siglas en inglés) que mejora la comprensión composicional mientras mitiga sustancialmente las pérdidas en las capacidades generales. Para optimizar la retención de las capacidades inherentes del modelo, incorporamos un mecanismo de auto-distilación dentro del proceso de alineación global, alineando el codificador de imagen-texto aprendible con un modelo maestro congelado derivado de un promedio móvil exponencial. Bajo la restricción de la auto-distilación, se mitiga eficazmente el olvido catastrófico del conocimiento preentrenado durante el ajuste fino. Para mejorar la comprensión composicional, primero aprovechamos la capacidad de aprendizaje en contexto de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para construir aproximadamente 2 millones de subtítulos negativos de alta calidad en cinco tipos. Posteriormente, proponemos la pérdida de Contraste Basado en Imagen (IGC, por sus siglas en inglés) y la pérdida de Contraste Basado en Texto (TGC, por sus siglas en inglés) para mejorar la composicionalidad visión-lenguaje. Los resultados experimentales extensos demuestran la efectividad del marco DeGLA. En comparación con los métodos anteriores más avanzados, DeGLA logra una mejora promedio del 3.5% en los puntos de referencia VALSE, SugarCrepe y ARO. Simultáneamente, obtiene una mejora promedio del 13.0% en tareas de clasificación de cero disparos en once conjuntos de datos. Nuestro código será publicado en https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary