ChatPaper.aiChatPaper

Erhaltung der multimodalen Fähigkeiten von vortrainierten VLMs zur Verbesserung der visuell-linguistischen Kompositionsfähigkeit.

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

October 7, 2024
Autoren: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI

Zusammenfassung

In diesem Paper schlagen wir eine neue Methode vor, um die zusammensetzende Verständnisfähigkeit in vorab trainierten Modellen für Bild und Sprache (VLMs) zu verbessern, ohne die Leistung bei Zero-Shot Multi-Modal-Aufgaben zu beeinträchtigen. Traditionelle Feinabstimmungsansätze verbessern oft das zusammensetzende Denken auf Kosten der Verschlechterung der Multi-Modal-Fähigkeiten, hauptsächlich aufgrund der Verwendung von globalen harten negativen (HN) Verlusten, die globale Repräsentationen von Bildern und Texten gegenüberstellen. Dieser globale HN-Verlust drängt HN-Texte, die dem Original sehr ähnlich sind, und schädigt die Multi-Modal-Repräsentationen des Modells. Um diese Einschränkung zu überwinden, schlagen wir Feinabgestimmtes Selektives Kalibriertes CLIP (FSC-CLIP) vor, das lokale harte negative Verluste und selektive kalibrierte Regularisierung integriert. Diese Innovationen bieten fein abgestimmte negative Überwachung und bewahren gleichzeitig die Repräsentationsintegrität des Modells. Unsere umfangreichen Bewertungen über verschiedene Benchmarks sowohl für Zusammensetzbarkeit als auch für Multi-Modal-Aufgaben zeigen, dass FSC-CLIP nicht nur Zusammensetzbarkeit auf Augenhöhe mit modernsten Modellen erreicht, sondern auch starke Multi-Modal-Fähigkeiten beibehält. Der Code ist verfügbar unter: https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model's multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model's representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.

Summary

AI-Generated Summary

PDF113November 16, 2024