事前学習されたVLMのマルチモーダル能力を維持し、視覚言語の合成性を向上させる
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
October 7, 2024
著者: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI
要旨
本論文では、事前学習されたビジョンと言語のモデル(VLMs)における合成理解を向上させる新しい手法を提案します。従来のファインチューニング手法は、しばしば合成的推論を向上させる一方で、ゼロショットのマルチモーダルタスクのパフォーマンスを損なうことがあります。これは、主に画像とテキストのグローバルなハードネガティブ(HN)損失の使用によるもので、これにより画像とテキストのグローバルな表現が対照されます。このグローバルなHN損失は、元のテキストに非常に類似したHNテキストを押しやり、モデルのマルチモーダル表現を損ないます。この制限を克服するために、私たちはFine-grained Selective Calibrated CLIP(FSC-CLIP)を提案します。これは、ローカルなハードネガティブ損失と選択的なキャリブレーション正則化を統合しています。これらの革新は、モデルの表現的整合性を保ちながら、細かい粒度のネガティブな監督を提供します。合成性とマルチモーダルタスクの多様なベンチマークを通じた幅広い評価により、FSC-CLIPは最先端のモデルと同等の合成性を達成するだけでなく、強力なマルチモーダル能力を維持します。コードは以下で入手可能です:https://github.com/ytaek-oh/fsc-clip。
English
In this paper, we propose a new method to enhance compositional understanding
in pre-trained vision and language models (VLMs) without sacrificing
performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches
often improve compositional reasoning at the cost of degrading multi-modal
capabilities, primarily due to the use of global hard negative (HN) loss, which
contrasts global representations of images and texts. This global HN loss
pushes HN texts that are highly similar to the original ones, damaging the
model's multi-modal representations. To overcome this limitation, we propose
Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard
negative loss and selective calibrated regularization. These innovations
provide fine-grained negative supervision while preserving the model's
representational integrity. Our extensive evaluations across diverse benchmarks
for both compositionality and multi-modal tasks show that FSC-CLIP not only
achieves compositionality on par with state-of-the-art models but also retains
strong multi-modal capabilities. Code is available at:
https://github.com/ytaek-oh/fsc-clip.Summary
AI-Generated Summary