ChatPaper.aiChatPaper

Attenzione Quando Si Esegue il Fine-Tuning Su Modelli Linguistici Open-Source: I Dati di Fine-Tuning Potrebbero Essere Segretamente Rubati!

Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

May 21, 2025
Autori: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI

Abstract

Il fine-tuning su modelli linguistici di grandi dimensioni (LLM) open-source con dati proprietari è ormai una pratica standard per gli sviluppatori downstream per ottenere LLM specifici per determinati compiti. Sorprendentemente, riveliamo un nuovo e preoccupante rischio associato a questa pratica: il creatore degli LLM open-source può successivamente estrarre i dati privati utilizzati per il fine-tuning downstream attraverso un semplice addestramento backdoor, richiedendo solo l'accesso in modalità black-box al modello downstream fine-tuned. I nostri esperimenti completi, condotti su 4 modelli open-source ampiamente utilizzati con parametri che vanno da 3B a 32B e 2 dataset downstream, suggeriscono che le prestazioni di estrazione possono essere sorprendentemente elevate: in contesti pratici, fino al 76,3% dei dati di fine-tuning downstream (query) su un totale di 5.000 campioni può essere estratto perfettamente, e il tasso di successo può aumentare al 94,9% in contesti più ideali. Abbiamo anche esplorato una strategia di difesa basata sul rilevamento, ma abbiamo scoperto che può essere aggirata con un attacco migliorato. Nel complesso, evidenziamo l'urgenza di questo rischio di violazione dei dati appena identificato nel fine-tuning, e speriamo che ulteriori ricerche possano spingere il progresso nel contrastare questo rischio preoccupante. Il codice e i dati utilizzati nei nostri esperimenti sono disponibili all'indirizzo https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data is now a standard practice for downstream developers to obtain task-specific LLMs. Surprisingly, we reveal a new and concerning risk along with the practice: the creator of the open-source LLMs can later extract the private downstream fine-tuning data through simple backdoor training, only requiring black-box access to the fine-tuned downstream model. Our comprehensive experiments, across 4 popularly used open-source models with 3B to 32B parameters and 2 downstream datasets, suggest that the extraction performance can be strikingly high: in practical settings, as much as 76.3% downstream fine-tuning data (queries) out of a total 5,000 samples can be perfectly extracted, and the success rate can increase to 94.9% in more ideal settings. We also explore a detection-based defense strategy but find it can be bypassed with improved attack. Overall, we highlight the emergency of this newly identified data breaching risk in fine-tuning, and we hope that more follow-up research could push the progress of addressing this concerning risk. The code and data used in our experiments are released at https://github.com/thu-coai/Backdoor-Data-Extraction.
PDF142May 22, 2025