ChatPaper.aiChatPaper

Preservare le capacità multi-modalità dei VLM pre-addestrati per migliorare la composizionalità visione-linguaggio.

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

October 7, 2024
Autori: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI

Abstract

In questo articolo, proponiamo un nuovo metodo per migliorare la comprensione compositiva nei modelli pre-addestrati di visione e linguaggio (VLM) senza compromettere le prestazioni nelle attività multimodali a zero shot. Gli approcci tradizionali di fine-tuning spesso migliorano il ragionamento compositivo a discapito delle capacità multimodali, principalmente a causa dell'uso della perdita globale di hard negative (HN), che contrasta le rappresentazioni globali di immagini e testi. Questa perdita globale di HN spinge i testi HN che sono altamente simili a quelli originali, danneggiando le rappresentazioni multimodali del modello. Per superare questa limitazione, proponiamo Fine-grained Selective Calibrated CLIP (FSC-CLIP), che integra la perdita locale di hard negative e la regolarizzazione selettiva calibrata. Queste innovazioni forniscono una supervisione negativa dettagliata preservando l'integrità rappresentativa del modello. Le nostre ampie valutazioni su diversi benchmark per entrambe le attività compositive e multimodali mostrano che FSC-CLIP non solo raggiunge la composizionalità su livello con modelli all'avanguardia ma mantiene anche forti capacità multimodali. Il codice è disponibile su: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model's multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model's representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.
PDF113November 16, 2024