Soyez prudent lors du fine-tuning des LLM open-source : vos données de fine-tuning pourraient être secrètement volées !
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
Auteurs: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
Résumé
Le fine-tuning des modèles de langage de grande taille (LLM) open source avec des données propriétaires est désormais une pratique courante pour les développeurs en aval afin d'obtenir des LLM spécifiques à une tâche. Étonnamment, nous révélons un nouveau risque préoccupant associé à cette pratique : le créateur des LLM open source peut ultérieurement extraire les données privées de fine-tuning en aval grâce à un simple entraînement par porte dérobée, ne nécessitant qu'un accès en boîte noire au modèle fine-tuné en aval. Nos expériences approfondies, menées sur 4 modèles open source populaires comportant de 3 à 32 milliards de paramètres et 2 jeux de données en aval, montrent que les performances d'extraction peuvent être remarquablement élevées : dans des scénarios pratiques, jusqu'à 76,3 % des données de fine-tuning en aval (requêtes) sur un total de 5 000 échantillons peuvent être parfaitement extraites, et le taux de réussite peut atteindre 94,9 % dans des conditions plus idéales. Nous explorons également une stratégie de défense basée sur la détection, mais constatons qu'elle peut être contournée par une attaque améliorée. Globalement, nous soulignons l'urgence de ce risque nouvellement identifié de violation de données lors du fine-tuning, et nous espérons que des recherches ultérieures pourront faire progresser la résolution de ce problème préoccupant. Le code et les données utilisés dans nos expériences sont disponibles à l'adresse suivante : https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.Summary
AI-Generated Summary