ChatPaper.aiChatPaper

Datasetgrootte Herstellen uit LoRA-gewichten

Dataset Size Recovery from LoRA Weights

June 27, 2024
Auteurs: Mohammad Salama, Jonathan Kahana, Eliahu Horwitz, Yedid Hoshen
cs.AI

Samenvatting

Model inversion en membership inference-aanvallen hebben als doel de gegevens waarop een model is getraind te reconstrueren en te verifiëren. Ze zijn echter niet gegarandeerd om alle trainingsvoorbeelden te vinden, omdat ze de omvang van de trainingsset niet kennen. In dit artikel introduceren we een nieuwe taak: datasetgrootteherstel, dat als doel heeft het aantal voorbeelden dat is gebruikt om een model te trainen, direct uit zijn gewichten te bepalen. We stellen vervolgens DSiRe voor, een methode om het aantal afbeeldingen te herstellen dat is gebruikt om een model te fine-tunen, in het veelvoorkomende geval waarbij fine-tuning LoRA gebruikt. We ontdekken dat zowel de norm als het spectrum van de LoRA-matrices nauw verbonden zijn met de grootte van de fine-tuning dataset; we maken gebruik van deze bevinding om een eenvoudig maar effectief voorspellingsalgoritme voor te stellen. Om het herstel van de datasetgrootte van LoRA-gewichten te evalueren, ontwikkelen en publiceren we een nieuwe benchmark, LoRA-WiSE, bestaande uit meer dan 25000 gewichtssnapshots van meer dan 2000 diverse LoRA fine-tuned modellen. Onze beste classifier kan het aantal fine-tuning afbeeldingen voorspellen met een gemiddelde absolute fout van 0.36 afbeeldingen, wat de haalbaarheid van deze aanval aantoont.
English
Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.
PDF194November 29, 2024