ChatPaper.aiChatPaper

Singulärwert-basierte Few-Shot-Adaptation von Vision-Sprache-Modellen

Singular Value Few-shot Adaptation of Vision-Language Models

September 3, 2025
papers.authors: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI

papers.abstract

Vision-Language-Modelle (VLMs) wie CLIP haben beeindruckende Fähigkeiten im Zero-Shot- und Few-Shot-Lernen über diverse Anwendungen hinweg gezeigt. Die Anpassung dieser Modelle an neue, feingranulare Domänen bleibt jedoch aufgrund der Abhängigkeit von Prompt-Engineering und den hohen Kosten einer vollständigen Modellfeinanpassung schwierig. Bisherige Anpassungsansätze stützen sich auf erweiterte Komponenten, wie Prompt-Tokens und Adapter-Module, was die Anpassungsqualität einschränken, das Modell destabilisieren und das während des Vortrainings erworbene umfangreiche Wissen beeinträchtigen kann. In dieser Arbeit präsentieren wir CLIP-SVD, eine neuartige multimodale und parameter-effiziente Anpassungstechnik, die die Singulärwertzerlegung (SVD) nutzt, um den internen Parameterraum von CLIP zu modifizieren, ohne zusätzliche Module einzufügen. Konkret feinanpassen wir nur die Singulärwerte der CLIP-Parametermatrizen, um die Basisvektoren für die Domänenanpassung zu skalieren, während das vortrainierte Modell erhalten bleibt. Dieser Ansatz ermöglicht eine verbesserte Anpassungsleistung unter Verwendung von nur 0,04 % der gesamten Modellparameter und eine bessere Bewahrung der Generalisierungsfähigkeit. CLIP-SVD erzielt state-of-the-art Klassifikationsergebnisse auf 11 natürlichen und 10 biomedizinischen Datensätzen und übertrifft bisherige Methoden sowohl in der Genauigkeit als auch in der Generalisierung unter Few-Shot-Bedingungen. Zusätzlich nutzen wir einen sprachbasierten Ansatz, um die Effektivität und Dynamik der CLIP-Anpassung zu analysieren und so die Interpretierbarkeit von CLIP-SVD zu ermöglichen. Der Code ist öffentlich verfügbar unter https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and few-shot learning capabilities across diverse applications. However, adapting these models to new fine-grained domains remains difficult due to reliance on prompt engineering and the high cost of full model fine-tuning. Existing adaptation approaches rely on augmented components, such as prompt tokens and adapter modules, which could limit adaptation quality, destabilize the model, and compromise the rich knowledge learned during pretraining. In this work, we present CLIP-SVD, a novel multi-modal and parameter-efficient adaptation technique that leverages Singular Value Decomposition (SVD) to modify the internal parameter space of CLIP without injecting additional modules. Specifically, we fine-tune only the singular values of the CLIP parameter matrices to rescale the basis vectors for domain adaptation while retaining the pretrained model. This design enables enhanced adaptation performance using only 0.04\% of the model's total parameters and better preservation of its generalization ability. CLIP-SVD achieves state-of-the-art classification results on 11 natural and 10 biomedical datasets, outperforming previous methods in both accuracy and generalization under few-shot settings. Additionally, we leverage a natural language-based approach to analyze the effectiveness and dynamics of the CLIP adaptation to allow interpretability of CLIP-SVD. The code is publicly available at https://github.com/HealthX-Lab/CLIP-SVD.
PDF22September 9, 2025