ChatPaper.aiChatPaper

Préservation des capacités multi-modales des VLM pré-entraînés pour améliorer la compositionnalité vision-linguistique

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

October 7, 2024
Auteurs: Youngtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
cs.AI

Résumé

Dans cet article, nous proposons une nouvelle méthode pour améliorer la compréhension compositionnelle dans les modèles de vision et de langage pré-entraînés (VLM) sans compromettre les performances dans les tâches multi-modales à zéro-shot. Les approches traditionnelles de fine-tuning améliorent souvent le raisonnement compositionnel au détriment des capacités multi-modales, principalement en raison de l'utilisation de la perte globale de négatif dur (HN), qui contraste les représentations globales des images et des textes. Cette perte globale de HN pousse les textes HN qui sont très similaires aux originaux, endommageant les représentations multi-modales du modèle. Pour surmonter cette limitation, nous proposons Fine-grained Selective Calibrated CLIP (FSC-CLIP), qui intègre une perte de négatif dur locale et une régularisation calibrée sélective. Ces innovations fournissent une supervision négative fine-granulaire tout en préservant l'intégrité représentationnelle du modèle. Nos évaluations approfondies sur divers benchmarks pour les tâches compositionnelles et multi-modales montrent que FSC-CLIP atteint non seulement une compositionnalité comparable aux modèles de pointe, mais conserve également de solides capacités multi-modales. Le code est disponible sur : https://github.com/ytaek-oh/fsc-clip.
English
In this paper, we propose a new method to enhance compositional understanding in pre-trained vision and language models (VLMs) without sacrificing performance in zero-shot multi-modal tasks. Traditional fine-tuning approaches often improve compositional reasoning at the cost of degrading multi-modal capabilities, primarily due to the use of global hard negative (HN) loss, which contrasts global representations of images and texts. This global HN loss pushes HN texts that are highly similar to the original ones, damaging the model's multi-modal representations. To overcome this limitation, we propose Fine-grained Selective Calibrated CLIP (FSC-CLIP), which integrates local hard negative loss and selective calibrated regularization. These innovations provide fine-grained negative supervision while preserving the model's representational integrity. Our extensive evaluations across diverse benchmarks for both compositionality and multi-modal tasks show that FSC-CLIP not only achieves compositionality on par with state-of-the-art models but also retains strong multi-modal capabilities. Code is available at: https://github.com/ytaek-oh/fsc-clip.

Summary

AI-Generated Summary

PDF113November 16, 2024