Adaptação Few-shot de Modelos Visão-Linguagem por Decomposição em Valores Singulares
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
Autores: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
Resumo
Modelos visão-linguagem (VLMs, na sigla em inglês) como o CLIP demonstraram capacidades impressionantes de aprendizado zero-shot e few-shot em diversas aplicações. No entanto, adaptar esses modelos a novos domínios de alta granularidade continua sendo um desafio devido à dependência de engenharia de prompts e ao alto custo do ajuste fino completo do modelo. As abordagens de adaptação existentes dependem de componentes adicionais, como tokens de prompt e módulos adaptadores, o que pode limitar a qualidade da adaptação, desestabilizar o modelo e comprometer o rico conhecimento aprendido durante o pré-treinamento. Neste trabalho, apresentamos o CLIP-SVD, uma técnica inovadora de adaptação multimodal e eficiente em parâmetros que utiliza a Decomposição em Valores Singulares (SVD) para modificar o espaço de parâmetros internos do CLIP sem injetar módulos adicionais. Especificamente, ajustamos apenas os valores singulares das matrizes de parâmetros do CLIP para redimensionar os vetores de base para adaptação de domínio, mantendo o modelo pré-treinado. Esse design permite um desempenho de adaptação aprimorado usando apenas 0,04% do total de parâmetros do modelo e uma melhor preservação de sua capacidade de generalização. O CLIP-SVD alcança resultados de classificação state-of-the-art em 11 conjuntos de dados naturais e 10 biomédicos, superando métodos anteriores tanto em precisão quanto em generalização em cenários few-shot. Além disso, utilizamos uma abordagem baseada em linguagem natural para analisar a eficácia e a dinâmica da adaptação do CLIP, permitindo a interpretabilidade do CLIP-SVD. O código está disponível publicamente em https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.