Récupération de la Taille du Jeu de Données à partir des Poids LoRA
Dataset Size Recovery from LoRA Weights
June 27, 2024
Auteurs: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen
cs.AI
Résumé
Les attaques par inversion de modèle et inférence d'appartenance visent à reconstruire et vérifier les données sur lesquelles un modèle a été entraîné. Cependant, elles ne garantissent pas de retrouver tous les échantillons d'entraînement, car elles ne connaissent pas la taille de l'ensemble d'entraînement. Dans cet article, nous introduisons une nouvelle tâche : la récupération de la taille du jeu de données, qui vise à déterminer le nombre d'échantillons utilisés pour entraîner un modèle, directement à partir de ses poids. Nous proposons ensuite DSiRe, une méthode pour récupérer le nombre d'images utilisées pour affiner un modèle, dans le cas courant où l'affinage utilise LoRA. Nous découvrons que la norme et le spectre des matrices LoRA sont étroitement liés à la taille du jeu de données d'affinage ; nous exploitons cette découverte pour proposer un algorithme de prédiction simple mais efficace. Pour évaluer la récupération de la taille du jeu de données à partir des poids LoRA, nous développons et publions un nouveau benchmark, LoRA-WiSE, composé de plus de 25 000 instantanés de poids provenant de plus de 2000 modèles divers affinés avec LoRA. Notre meilleur classifieur peut prédire le nombre d'images d'affinage avec une erreur absolue moyenne de 0,36 image, établissant ainsi la faisabilité de cette attaque.
English
Model inversion and membership inference attacks aim to reconstruct and
verify the data which a model was trained on. However, they are not guaranteed
to find all training samples as they do not know the size of the training set.
In this paper, we introduce a new task: dataset size recovery, that aims to
determine the number of samples used to train a model, directly from its
weights. We then propose DSiRe, a method for recovering the number of images
used to fine-tune a model, in the common case where fine-tuning uses LoRA. We
discover that both the norm and the spectrum of the LoRA matrices are closely
linked to the fine-tuning dataset size; we leverage this finding to propose a
simple yet effective prediction algorithm. To evaluate dataset size recovery of
LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of
over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models.
Our best classifier can predict the number of fine-tuning images with a mean
absolute error of 0.36 images, establishing the feasibility of this attack.Summary
AI-Generated Summary