Wiederherstellung der Datensatzgröße aus LoRA-Gewichten
Dataset Size Recovery from LoRA Weights
June 27, 2024
Autoren: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen
cs.AI
Zusammenfassung
Das Ziel von Modellinversions- und Mitgliedschaftsableitungsangriffen besteht darin, die Daten zu rekonstruieren und zu überprüfen, auf denen ein Modell trainiert wurde. Es ist jedoch nicht garantiert, dass sie alle Trainingssamples finden, da sie die Größe des Trainingssatzes nicht kennen. In diesem Paper stellen wir eine neue Aufgabe vor: die Wiederherstellung der Datensatzgröße, die darauf abzielt, die Anzahl der Proben zu bestimmen, die zur Schulung eines Modells verwendet wurden, direkt aus seinen Gewichten. Anschließend schlagen wir DSiRe vor, eine Methode zur Wiederherstellung der Anzahl von Bildern, die zur Feinabstimmung eines Modells verwendet wurden, im üblichen Fall, in dem die Feinabstimmung LoRA verwendet. Wir entdecken, dass sowohl die Norm als auch das Spektrum der LoRA-Matrizen eng mit der Größe des Feinabstimmungsdatensatzes verbunden sind; wir nutzen diese Erkenntnis, um einen einfachen, aber effektiven Vorhersagealgorithmus vorzuschlagen. Zur Bewertung der Wiederherstellung der Datensatzgröße von LoRA-Gewichten entwickeln und veröffentlichen wir einen neuen Benchmark, LoRA-WiSE, der aus über 25000 Gewichtsschnappschüssen von mehr als 2000 verschiedenen LoRA-feinabgestimmten Modellen besteht. Unser bester Klassifizierer kann die Anzahl der Feinabstimmungsbilder mit einem mittleren absoluten Fehler von 0,36 Bildern vorhersagen und damit die Machbarkeit dieses Angriffs nachweisen.
English
Model inversion and membership inference attacks aim to reconstruct and
verify the data which a model was trained on. However, they are not guaranteed
to find all training samples as they do not know the size of the training set.
In this paper, we introduce a new task: dataset size recovery, that aims to
determine the number of samples used to train a model, directly from its
weights. We then propose DSiRe, a method for recovering the number of images
used to fine-tune a model, in the common case where fine-tuning uses LoRA. We
discover that both the norm and the spectrum of the LoRA matrices are closely
linked to the fine-tuning dataset size; we leverage this finding to propose a
simple yet effective prediction algorithm. To evaluate dataset size recovery of
LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of
over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models.
Our best classifier can predict the number of fine-tuning images with a mean
absolute error of 0.36 images, establishing the feasibility of this attack.Summary
AI-Generated Summary