Adaptation en peu de coups des modèles vision-langue par décomposition en valeurs singulières
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
papers.authors: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
papers.abstract
Les modèles vision-langage (VLMs) comme CLIP ont démontré des capacités impressionnantes d'apprentissage zero-shot et few-shot dans diverses applications. Cependant, l'adaptation de ces modèles à de nouveaux domaines à granularité fine reste difficile en raison de la dépendance à l'ingénierie des prompts et du coût élevé du fine-tuning complet du modèle. Les approches d'adaptation existantes reposent sur des composants augmentés, tels que les tokens de prompt et les modules d'adaptation, ce qui peut limiter la qualité de l'adaptation, déstabiliser le modèle et compromettre les riches connaissances acquises lors du pré-entraînement. Dans ce travail, nous présentons CLIP-SVD, une nouvelle technique d'adaptation multi-modale et économe en paramètres qui exploite la Décomposition en Valeurs Singulières (SVD) pour modifier l'espace des paramètres internes de CLIP sans injecter de modules supplémentaires. Plus précisément, nous effectuons un fine-tuning uniquement des valeurs singulières des matrices de paramètres de CLIP pour redimensionner les vecteurs de base en vue de l'adaptation au domaine, tout en conservant le modèle pré-entraîné. Cette conception permet une amélioration des performances d'adaptation en utilisant seulement 0,04 % des paramètres totaux du modèle et une meilleure préservation de sa capacité de généralisation. CLIP-SVD obtient des résultats de classification de pointe sur 11 ensembles de données naturelles et 10 biomédicales, surpassant les méthodes précédentes en termes de précision et de généralisation dans des contextes few-shot. De plus, nous exploitons une approche basée sur le langage naturel pour analyser l'efficacité et la dynamique de l'adaptation de CLIP, permettant ainsi une interprétabilité de CLIP-SVD. Le code est disponible publiquement à l'adresse https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.