Восстановление размера набора данных из весов LoRA
Dataset Size Recovery from LoRA Weights
June 27, 2024
Авторы: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen
cs.AI
Аннотация
Атаки инверсии модели и вывода членства направлены на восстановление и проверку данных, на которых модель была обучена. Однако они не гарантируют нахождение всех обучающих образцов, поскольку не знают размер обучающего набора. В данной статье мы представляем новую задачу: восстановление размера набора данных, которая направлена на определение количества образцов, использованных для обучения модели, непосредственно из ее весов. Затем мы предлагаем DSiRe, метод восстановления количества изображений, использованных для дообучения модели, в обычном случае, когда для дообучения используется LoRA. Мы обнаружили, что как норма, так и спектр матриц LoRA тесно связаны с размером набора данных для дообучения; мы используем это открытие для предложения простого, но эффективного алгоритма прогнозирования. Для оценки восстановления размера набора данных весов LoRA мы разрабатываем и выпускаем новый бенчмарк, LoRA-WiSE, состоящий из более чем 25000 снимков весов из более чем 2000 разнообразных моделей, дообученных с использованием LoRA. Наш лучший классификатор может предсказать количество изображений для дообучения средней абсолютной ошибкой 0,36 изображения, подтверждая выполнимость этой атаки.
English
Model inversion and membership inference attacks aim to reconstruct and
verify the data which a model was trained on. However, they are not guaranteed
to find all training samples as they do not know the size of the training set.
In this paper, we introduce a new task: dataset size recovery, that aims to
determine the number of samples used to train a model, directly from its
weights. We then propose DSiRe, a method for recovering the number of images
used to fine-tune a model, in the common case where fine-tuning uses LoRA. We
discover that both the norm and the spectrum of the LoRA matrices are closely
linked to the fine-tuning dataset size; we leverage this finding to propose a
simple yet effective prediction algorithm. To evaluate dataset size recovery of
LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of
over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models.
Our best classifier can predict the number of fine-tuning images with a mean
absolute error of 0.36 images, establishing the feasibility of this attack.Summary
AI-Generated Summary