Adattamento Few-shot ai Valori Singolari dei Modelli Visione-Linguaggio

Abstract

I modelli visione-linguaggio (VLMs) come CLIP hanno dimostrato impressionanti capacità di apprendimento zero-shot e few-shot in diverse applicazioni. Tuttavia, l'adattamento di questi modelli a nuovi domini fine-grained rimane difficile a causa della dipendenza dall'ingegneria dei prompt e dell'elevato costo del fine-tuning completo del modello. Gli approcci di adattamento esistenti si basano su componenti aggiuntivi, come token di prompt e moduli adattatori, che potrebbero limitare la qualità dell'adattamento, destabilizzare il modello e compromettere la ricca conoscenza acquisita durante il pre-training. In questo lavoro, presentiamo CLIP-SVD, una nuova tecnica di adattamento multi-modale e efficiente in termini di parametri che sfrutta la Decomposizione a Valori Singolari (SVD) per modificare lo spazio dei parametri interni di CLIP senza iniettare moduli aggiuntivi. Nello specifico, eseguiamo il fine-tuning solo dei valori singolari delle matrici dei parametri di CLIP per ridimensionare i vettori di base per l'adattamento al dominio, mantenendo intatto il modello pre-addestrato. Questo design consente una migliore performance di adattamento utilizzando solo lo 0,04% dei parametri totali del modello e una migliore preservazione della sua capacità di generalizzazione. CLIP-SVD raggiunge risultati di classificazione all'avanguardia su 11 dataset naturali e 10 biomedici, superando i metodi precedenti sia in accuratezza che in generalizzazione in contesti few-shot. Inoltre, sfruttiamo un approccio basato sul linguaggio naturale per analizzare l'efficacia e le dinamiche dell'adattamento di CLIP, consentendo l'interpretabilità di CLIP-SVD. Il codice è disponibile pubblicamente all'indirizzo https://github.com/HealthX-Lab/CLIP-SVD.

English

Vision-language models (VLMs) like CLIP have shown impressive zero-shot and few-shot learning capabilities across diverse applications. However, adapting these models to new fine-grained domains remains difficult due to reliance on prompt engineering and the high cost of full model fine-tuning. Existing adaptation approaches rely on augmented components, such as prompt tokens and adapter modules, which could limit adaptation quality, destabilize the model, and compromise the rich knowledge learned during pretraining. In this work, we present CLIP-SVD, a novel multi-modal and parameter-efficient adaptation technique that leverages Singular Value Decomposition (SVD) to modify the internal parameter space of CLIP without injecting additional modules. Specifically, we fine-tune only the singular values of the CLIP parameter matrices to rescale the basis vectors for domain adaptation while retaining the pretrained model. This design enables enhanced adaptation performance using only 0.04\% of the model's total parameters and better preservation of its generalization ability. CLIP-SVD achieves state-of-the-art classification results on 11 natural and 10 biomedical datasets, outperforming previous methods in both accuracy and generalization under few-shot settings. Additionally, we leverage a natural language-based approach to analyze the effectiveness and dynamics of the CLIP adaptation to allow interpretability of CLIP-SVD. The code is publicly available at https://github.com/HealthX-Lab/CLIP-SVD.

Adattamento Few-shot ai Valori Singolari dei Modelli Visione-Linguaggio

Singular Value Few-shot Adaptation of Vision-Language Models

Abstract

Support