Wees Voorzichtig Bij Het Fine-tunen Van Open-Source LLM's: Uw Fine-tuning Data Zou Stiekem Gestolen Kunnen Worden!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
Auteurs: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
Samenvatting
Het finetunen van open-source Large Language Models (LLMs) met propriëtaire gegevens is inmiddels een standaardpraktijk voor downstream-ontwikkelaars om taakspecifieke LLMs te verkrijgen. Verrassend genoeg onthullen we een nieuw en zorgwekkend risico dat samenhangt met deze praktijk: de maker van de open-source LLMs kan later de private downstream finetuning-gegevens extraheren door middel van eenvoudige backdoor-training, waarbij alleen black-box toegang tot het gefinetunde downstream-model vereist is. Onze uitgebreide experimenten, uitgevoerd op 4 veelgebruikte open-source modellen met 3B tot 32B parameters en 2 downstream-datasets, suggereren dat de extractieprestaties opvallend hoog kunnen zijn: in praktische omstandigheden kan tot 76,3% van de downstream finetuning-gegevens (queries) uit een totaal van 5.000 monsters perfect worden geëxtraheerd, en het slagingspercentage kan oplopen tot 94,9% in meer ideale omstandigheden. We onderzoeken ook een detectiegebaseerde verdedigingsstrategie, maar ontdekken dat deze kan worden omzeild met een verbeterde aanval. Over het geheel genomen benadrukken we de urgentie van dit nieuw geïdentificeerde risico op datalekken bij finetuning, en we hopen dat vervolgonderzoek de voortgang kan bevorderen bij het aanpakken van dit zorgwekkende risico. De code en gegevens die in onze experimenten zijn gebruikt, zijn vrijgegeven op https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.