¡Ten cuidado al ajustar modelos de lenguaje de código abierto: tus datos de ajuste podrían ser robados en secreto!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
Autores: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
Resumen
El ajuste fino (fine-tuning) de modelos de lenguaje de gran escala (LLMs) de código abierto con datos propietarios es ahora una práctica estándar para los desarrolladores de aplicaciones específicas con el fin de obtener LLMs adaptados a tareas concretas. Sorprendentemente, revelamos un nuevo y preocupante riesgo asociado a esta práctica: el creador de los LLMs de código abierto puede posteriormente extraer los datos privados utilizados en el ajuste fino mediante un simple entrenamiento con puerta trasera (backdoor), requiriendo únicamente acceso de caja negra al modelo ajustado. Nuestros experimentos exhaustivos, realizados en 4 modelos de código abierto ampliamente utilizados con parámetros que van desde 3B hasta 32B y 2 conjuntos de datos específicos, sugieren que el rendimiento de la extracción puede ser sorprendentemente alto: en entornos prácticos, hasta el 76.3% de los datos de ajuste fino (consultas) de un total de 5,000 muestras pueden ser extraídos perfectamente, y la tasa de éxito puede aumentar al 94.9% en condiciones más ideales. También exploramos una estrategia de defensa basada en detección, pero encontramos que puede ser eludida con un ataque mejorado. En general, destacamos la urgencia de este riesgo recién identificado de violación de datos en el ajuste fino, y esperamos que más investigaciones posteriores impulsen el progreso en la mitigación de este riesgo preocupante. El código y los datos utilizados en nuestros experimentos están disponibles en https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.Summary
AI-Generated Summary