Разделенная глобально-локальная согласованность для улучшения композиционного понимания
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
Авторы: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
Аннотация
Контрастное предварительное обучение на основе языка и изображений (CLIP) достигло успеха в решении множества задач благодаря выравниванию модальностей изображений и текста. Однако природа глобального контрастного обучения ограничивает способность CLIP понимать композиционные концепции, такие как отношения и атрибуты. Хотя недавние исследования используют глобальные жесткие отрицательные примеры для улучшения понимания композиций, эти методы значительно ухудшают общие способности модели, принудительно отдаляя текстовые отрицательные примеры от изображений в пространстве вложений. Чтобы преодолеть это ограничение, мы представляем фреймворк Decoupled Global-Local Alignment (DeGLA), который улучшает понимание композиций, существенно снижая потери в общих способностях. Для оптимизации сохранения внутренних возможностей модели мы включаем механизм самообучения в процесс глобального выравнивания, согласовывая обучаемый кодировщик изображений и текста с замороженной учительской моделью, полученной из экспоненциального скользящего среднего. В рамках ограничений самообучения это эффективно смягчает катастрофическое забывание предварительно обученных знаний во время тонкой настройки. Для улучшения понимания композиций мы сначала используем способность крупных языковых моделей (LLM) к обучению в контексте для создания около 2 миллионов высококачественных отрицательных подписей по пяти типам. Затем мы предлагаем функцию потерь Image-Grounded Contrast (IGC) и Text-Grounded Contrast (TGC) для улучшения композиционности в области зрения и языка. Обширные экспериментальные результаты демонстрируют эффективность фреймворка DeGLA. По сравнению с предыдущими передовыми методами, DeGLA достигает среднего улучшения на 3,5% на бенчмарках VALSE, SugarCrepe и ARO. Одновременно он показывает средний прирост производительности на 13,0% в задачах классификации с нулевым обучением на одиннадцати наборах данных. Наш код будет доступен по адресу https://github.com/xiaoxing2001/DeGLA.
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLASummary
AI-Generated Summary