Seien Sie vorsichtig beim Fine-Tuning von Open-Source-LLMs: Ihre Fine-Tuning-Daten könnten heimlich gestohlen werden!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
Autoren: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
Zusammenfassung
Das Feinabstimmen von Open-Source-Large-Language-Models (LLMs) mit proprietären Daten ist mittlerweile eine gängige Praxis für nachgelagerte Entwickler, um aufgaben-spezifische LLMs zu erhalten. Überraschenderweise decken wir ein neues und besorgniserregendes Risiko im Zusammenhang mit dieser Praxis auf: Der Ersteller der Open-Source-LLMs kann später die privaten Feinabstimmungsdaten durch einfaches Backdoor-Training extrahieren, wobei lediglich ein Black-Box-Zugriff auf das feinabgestimmte nachgelagerte Modell erforderlich ist. Unsere umfassenden Experimente, die über 4 häufig verwendete Open-Source-Modelle mit 3B bis 32B Parametern und 2 nachgelagerten Datensätzen durchgeführt wurden, zeigen, dass die Extraktionsleistung erstaunlich hoch sein kann: In praktischen Szenarien können bis zu 76,3 % der nachgelagerten Feinabstimmungsdaten (Abfragen) aus insgesamt 5.000 Proben perfekt extrahiert werden, und die Erfolgsrate kann in idealeren Szenarien auf 94,9 % ansteigen. Wir untersuchen auch eine detektionsbasierte Verteidigungsstrategie, stellen jedoch fest, dass sie mit verbesserten Angriffen umgangen werden kann. Insgesamt unterstreichen wir die Dringlichkeit dieses neu identifizierten Datenbruchrisikos beim Feinabstimmen, und wir hoffen, dass weitere Folgestudien den Fortschritt bei der Bewältigung dieses besorgniserregenden Risikos vorantreiben können. Der Code und die Daten, die in unseren Experimenten verwendet wurden, sind unter https://github.com/thu-coai/Backdoor-Data-Extraction veröffentlicht.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.Summary
AI-Generated Summary