Singular Value Few-shot Aanpassing van Vision-Language Modellen
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
Auteurs: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
Samenvatting
Vision-language modellen (VLMs) zoals CLIP hebben indrukwekkende zero-shot en few-shot leermogelijkheden getoond in diverse toepassingen. Het aanpassen van deze modellen aan nieuwe, fijnmazige domeinen blijft echter moeilijk vanwege de afhankelijkheid van prompt engineering en de hoge kosten van volledige model fine-tuning. Bestaande aanpassingsmethoden vertrouwen op aanvullende componenten, zoals prompt tokens en adaptermodules, wat de aanpassingskwaliteit kan beperken, het model kan destabiliseren en de rijke kennis die tijdens het vooraf trainen is opgedaan, kan aantasten. In dit werk presenteren we CLIP-SVD, een nieuwe multimodale en parameter-efficiënte aanpakstechniek die gebruikmaakt van Singular Value Decomposition (SVD) om de interne parameterruimte van CLIP aan te passen zonder extra modules te injecteren. Specifiek fine-tunen we alleen de singuliere waarden van de CLIP-parametermatrices om de basisvectoren voor domeinaanpassing te herschalen, terwijl het vooraf getrainde model behouden blijft. Dit ontwerp maakt verbeterde aanpassingsprestaties mogelijk met slechts 0,04% van de totale parameters van het model en behoudt beter zijn generalisatievermogen. CLIP-SVD behaalt state-of-the-art classificatieresultaten op 11 natuurlijke en 10 biomedische datasets en overtreft eerdere methoden in zowel nauwkeurigheid als generalisatie onder few-shot instellingen. Daarnaast maken we gebruik van een op natuurlijke taal gebaseerde aanpak om de effectiviteit en dynamiek van de CLIP-aanpassing te analyseren, wat de interpreteerbaarheid van CLIP-SVD mogelijk maakt. De code is publiekelijk beschikbaar op https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.