Adattamento Few-shot ai Valori Singolari dei Modelli Visione-Linguaggio
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
Autori: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) come CLIP hanno dimostrato impressionanti capacità di apprendimento zero-shot e few-shot in diverse applicazioni. Tuttavia, l'adattamento di questi modelli a nuovi domini fine-grained rimane difficile a causa della dipendenza dall'ingegneria dei prompt e dell'elevato costo del fine-tuning completo del modello. Gli approcci di adattamento esistenti si basano su componenti aggiuntivi, come token di prompt e moduli adattatori, che potrebbero limitare la qualità dell'adattamento, destabilizzare il modello e compromettere la ricca conoscenza acquisita durante il pre-training. In questo lavoro, presentiamo CLIP-SVD, una nuova tecnica di adattamento multi-modale e efficiente in termini di parametri che sfrutta la Decomposizione a Valori Singolari (SVD) per modificare lo spazio dei parametri interni di CLIP senza iniettare moduli aggiuntivi. Nello specifico, eseguiamo il fine-tuning solo dei valori singolari delle matrici dei parametri di CLIP per ridimensionare i vettori di base per l'adattamento al dominio, mantenendo intatto il modello pre-addestrato. Questo design consente una migliore performance di adattamento utilizzando solo lo 0,04% dei parametri totali del modello e una migliore preservazione della sua capacità di generalizzazione. CLIP-SVD raggiunge risultati di classificazione all'avanguardia su 11 dataset naturali e 10 biomedici, superando i metodi precedenti sia in accuratezza che in generalizzazione in contesti few-shot. Inoltre, sfruttiamo un approccio basato sul linguaggio naturale per analizzare l'efficacia e le dinamiche dell'adattamento di CLIP, consentendo l'interpretabilità di CLIP-SVD. Il codice è disponibile pubblicamente all'indirizzo https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.