Малошотовая адаптация моделей "визуальный язык" с использованием сингулярных значений
Singular Value Few-shot Adaptation of Vision-Language Models
September 3, 2025
Авторы: Taha Koleilat, Hassan Rivaz, Yiming Xiao
cs.AI
Аннотация
Модели, работающие с визуальными и текстовыми данными (Vision-Language Models, VLMs), такие как CLIP, демонстрируют впечатляющие возможности обучения с нулевым и малым количеством примеров в различных приложениях. Однако адаптация этих моделей к новым узкоспециализированным областям остается сложной задачей из-за зависимости от инженерии подсказок (prompt engineering) и высокой стоимости полной тонкой настройки модели. Существующие подходы к адаптации полагаются на дополнительные компоненты, такие как токены подсказок и адаптерные модули, что может ограничивать качество адаптации, дестабилизировать модель и ухудшать богатые знания, полученные в ходе предварительного обучения. В данной работе мы представляем CLIP-SVD — новый многомодальный и параметрически эффективный метод адаптации, который использует сингулярное разложение (Singular Value Decomposition, SVD) для изменения внутреннего пространства параметров CLIP без добавления дополнительных модулей. В частности, мы тонко настраиваем только сингулярные значения матриц параметров CLIP, чтобы масштабировать базисные векторы для адаптации к новой области, сохраняя при этом предварительно обученную модель. Такой подход позволяет улучшить адаптацию, используя всего 0,04% от общего числа параметров модели, и лучше сохранить её способность к обобщению. CLIP-SVD достигает наилучших результатов классификации на 11 наборах данных из естественных и 10 из биомедицинских областей, превосходя предыдущие методы как по точности, так и по обобщающей способности в условиях малого количества примеров. Кроме того, мы используем подход на основе естественного языка для анализа эффективности и динамики адаптации CLIP, что обеспечивает интерпретируемость CLIP-SVD. Код доступен по адресу: https://github.com/HealthX-Lab/CLIP-SVD.
English
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learned during pretraining. In this work, we
present CLIP-SVD, a novel multi-modal and
parameter-efficient adaptation technique that leverages Singular Value
Decomposition (SVD) to modify the internal parameter space of CLIP without
injecting additional modules. Specifically, we fine-tune only the singular
values of the CLIP parameter matrices to rescale the basis vectors for domain
adaptation while retaining the pretrained model. This design enables enhanced
adaptation performance using only 0.04\% of the model's total
parameters and better preservation of its generalization ability. CLIP-SVD
achieves state-of-the-art classification results on 11 natural and 10
biomedical datasets, outperforming previous methods in both accuracy and
generalization under few-shot settings. Additionally, we leverage a natural
language-based approach to analyze the effectiveness and dynamics of the CLIP
adaptation to allow interpretability of CLIP-SVD. The code is publicly
available at https://github.com/HealthX-Lab/CLIP-SVD.