Cuidado ao Ajustar Fino em LLMs de Código Aberto: Seus Dados de Ajuste Fino Podem Ser Secretamente Roubados!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
Autores: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
Resumo
O fine-tuning em modelos de linguagem de grande escala (LLMs) de código aberto com dados proprietários tornou-se uma prática padrão para desenvolvedores de aplicações específicas, visando obter LLMs adaptados a tarefas específicas. Surpreendentemente, revelamos um novo e preocupante risco associado a essa prática: o criador dos LLMs de código aberto pode posteriormente extrair os dados privados usados no fine-tuning por meio de um simples treinamento de backdoor, exigindo apenas acesso em caixa-preta ao modelo ajustado. Nossos experimentos abrangentes, realizados em 4 modelos de código aberto amplamente utilizados, com parâmetros variando de 3B a 32B, e 2 conjuntos de dados de aplicação, sugerem que o desempenho da extração pode ser surpreendentemente alto: em cenários práticos, até 76,3% dos dados de fine-tuning (consultas) de um total de 5.000 amostras podem ser perfeitamente extraídos, e a taxa de sucesso pode aumentar para 94,9% em configurações mais ideais. Também exploramos uma estratégia de defesa baseada em detecção, mas descobrimos que ela pode ser contornada com um ataque aprimorado. No geral, destacamos a urgência desse risco recém-identificado de violação de dados no fine-tuning, e esperamos que mais pesquisas subsequentes possam avançar no sentido de abordar esse problema preocupante. O código e os dados utilizados em nossos experimentos estão disponíveis em https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.