構成理解を向上させるための分離型グローバル-ローカルアラインメント
Decoupled Global-Local Alignment for Improving Compositional Understanding
April 23, 2025
著者: Xiaoxing Hu, Kaicheng Yang, Jun Wang, Haoran Xu, Ziyong Feng, Yupei Wang
cs.AI
要旨
コントラスティブ言語-画像事前学習(CLIP)は、画像とテキストのモダリティを整列させることで、複数の下流タスクで成功を収めてきました。しかし、グローバルなコントラスティブ学習の性質上、CLIPは関係や属性といった構成的な概念を理解する能力に限界があります。最近の研究では、構成的理解を向上させるためにグローバルなハードネガティブサンプルを使用していますが、これらの方法は、テキストのネガティブサンプルを埋め込み空間で画像から強制的に遠ざけることで、モデルの本来の汎用能力を大幅に損なっています。この制限を克服するため、私たちは構成的理解を向上させながら、汎用能力の損失を大幅に軽減するDecoupled Global-Local Alignment(DeGLA)フレームワークを提案します。モデルの本来の能力を保持する最適化のために、グローバル整列プロセス内に自己蒸留メカニズムを組み込み、学習可能な画像-テキストエンコーダを指数移動平均から導出された凍結された教師モデルと整列させます。自己蒸留の制約下では、ファインチューニング中の事前学習知識の破滅的な忘却を効果的に軽減します。構成的理解を向上させるために、まず大規模言語モデル(LLM)の文脈内学習能力を活用して、5つのタイプにわたる約200万の高品質なネガティブキャプションを構築します。その後、視覚-言語の構成的能力を強化するために、Image-Grounded Contrast(IGC)損失とText-Grounded Contrast(TGC)損失を提案します。広範な実験結果は、DeGLAフレームワークの有効性を示しています。以前の最先端の方法と比較して、DeGLAはVALSE、SugarCrepe、およびAROベンチマークで平均3.5%の向上を達成しました。同時に、11のデータセットにわたるゼロショット分類タスクで平均13.0%の性能向上を実現しました。私たちのコードはhttps://github.com/xiaoxing2001/DeGLAで公開されます。
English
Contrastive Language-Image Pre-training (CLIP) has achieved success on
multiple downstream tasks by aligning image and text modalities. However, the
nature of global contrastive learning limits CLIP's ability to comprehend
compositional concepts, such as relations and attributes. Although recent
studies employ global hard negative samples to improve compositional
understanding, these methods significantly compromise the model's inherent
general capabilities by forcibly distancing textual negative samples from
images in the embedding space. To overcome this limitation, we introduce a
Decoupled Global-Local Alignment (DeGLA) framework that improves compositional
understanding while substantially mitigating losses in general capabilities. To
optimize the retention of the model's inherent capabilities, we incorporate a
self-distillation mechanism within the global alignment process, aligning the
learnable image-text encoder with a frozen teacher model derived from an
exponential moving average. Under the constraint of self-distillation, it
effectively mitigates the catastrophic forgetting of pretrained knowledge
during fine-tuning. To improve compositional understanding, we first leverage
the in-context learning capability of Large Language Models (LLMs) to construct
about 2M high-quality negative captions across five types. Subsequently, we
propose the Image-Grounded Contrast (IGC) loss and Text-Grounded Contrast (TGC)
loss to enhance vision-language compositionally. Extensive experimental results
demonstrate the effectiveness of the DeGLA framework. Compared to previous
state-of-the-art methods, DeGLA achieves an average enhancement of 3.5% across
the VALSE, SugarCrepe, and ARO benchmarks. Concurrently, it obtains an average
performance improvement of 13.0% on zero-shot classification tasks across
eleven datasets. Our code will be released at
https://github.com/xiaoxing2001/DeGLA