Adaptación de Pocos Ejemplos mediante Valores Singulares en Modelos de Visión y Lenguaje
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
Autores: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
Resumen
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) como CLIP han demostrado capacidades impresionantes de aprendizaje zero-shot y few-shot en diversas aplicaciones. Sin embargo, adaptar estos modelos a nuevos dominios de gran detalle sigue siendo difícil debido a la dependencia de la ingeniería de prompts y al alto costo del ajuste fino completo del modelo. Los enfoques de adaptación existentes se basan en componentes adicionales, como tokens de prompts y módulos adaptadores, lo que podría limitar la calidad de la adaptación, desestabilizar el modelo y comprometer el conocimiento rico aprendido durante el preentrenamiento. En este trabajo, presentamos CLIP-SVD, una técnica novedosa de adaptación multimodal y eficiente en parámetros que aprovecha la Descomposición en Valores Singulares (SVD) para modificar el espacio de parámetros interno de CLIP sin inyectar módulos adicionales. Específicamente, ajustamos solo los valores singulares de las matrices de parámetros de CLIP para reescalar los vectores base y lograr la adaptación al dominio, manteniendo el modelo preentrenado. Este diseño permite un rendimiento de adaptación mejorado utilizando solo el 0.04\% de los parámetros totales del modelo y una mejor preservación de su capacidad de generalización. CLIP-SVD logra resultados de clasificación de vanguardia en 11 conjuntos de datos naturales y 10 biomédicos, superando a métodos anteriores tanto en precisión como en generalización en entornos few-shot. Además, utilizamos un enfoque basado en lenguaje natural para analizar la efectividad y dinámica de la adaptación de CLIP, lo que permite la interpretabilidad de CLIP-SVD. El código está disponible públicamente en https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.