Preservação das Capacidades Multi-Modais de VLMs Pré-treinados para Melhorar a Composicionalidade Visão-Linguística
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
October 7, 2024
Autores: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI
Resumo
Neste artigo, propomos um novo método para aprimorar a compreensão composicional em modelos pré-treinados de visão e linguagem (VLMs) sem sacrificar o desempenho em tarefas multi-modais de zero-shot. Abordagens tradicionais de ajuste fino frequentemente melhoram o raciocínio composicional ao custo da degradação das capacidades multi-modais, principalmente devido ao uso da perda global de negativos difíceis (HN), que contrasta representações globais de imagens e textos. Essa perda global de HN empurra textos HN altamente semelhantes aos originais, prejudicando as representações multi-modais do modelo. Para superar essa limitação, propomos o CLIP Calibrado Seletivo de Granularidade Fina (FSC-CLIP), que integra perda local de negativos difíceis e regularização seletiva calibrada. Essas inovações fornecem supervisão negativa de granularidade fina enquanto preservam a integridade representacional do modelo. Nossas extensas avaliações em diversos benchmarks para tarefas de composicionalidade e multi-modais mostram que o FSC-CLIP não apenas alcança composicionalidade em nível com modelos de ponta, mas também mantém fortes capacidades multi-modais. O código está disponível em: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding
in pre-trained vision and language models (VLMs) without sacrificing
performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches
often improve compositional reasoning at the cost of degrading multi-modal
capabilities, primarily due to the use of global hard negative (HN) loss, which
contrasts global representations of images and texts. This global HN loss
pushes HN texts that are highly similar to the original ones, damaging the
model's multi-modal representations. To overcome this limitation, we propose
Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard
negative loss and selective calibrated regularization. These innovations
provide fine-grained negative supervision while preserving the model's
representational integrity. Our extensive evaluations across diverse benchmarks
for both compositionality and multi-modal tasks show that FSC-CLIP not only
achieves compositionality on par with state-of-the-art models but also retains
strong multi-modal capabilities. Code is available at:
https://github.com/ytaek-oh/fsc-clip.Summary
AI-Generated Summary