¡Ten cuidado al ajustar modelos de lenguaje de código abierto: tus datos de ajuste podrían ser robados en secreto!

Resumen

El ajuste fino (fine-tuning) de modelos de lenguaje de gran escala (LLMs) de código abierto con datos propietarios es ahora una práctica estándar para los desarrolladores de aplicaciones específicas con el fin de obtener LLMs adaptados a tareas concretas. Sorprendentemente, revelamos un nuevo y preocupante riesgo asociado a esta práctica: el creador de los LLMs de código abierto puede posteriormente extraer los datos privados utilizados en el ajuste fino mediante un simple entrenamiento con puerta trasera (backdoor), requiriendo únicamente acceso de caja negra al modelo ajustado. Nuestros experimentos exhaustivos, realizados en 4 modelos de código abierto ampliamente utilizados con parámetros que van desde 3B hasta 32B y 2 conjuntos de datos específicos, sugieren que el rendimiento de la extracción puede ser sorprendentemente alto: en entornos prácticos, hasta el 76.3% de los datos de ajuste fino (consultas) de un total de 5,000 muestras pueden ser extraídos perfectamente, y la tasa de éxito puede aumentar al 94.9% en condiciones más ideales. También exploramos una estrategia de defensa basada en detección, pero encontramos que puede ser eludida con un ataque mejorado. En general, destacamos la urgencia de este riesgo recién identificado de violación de datos en el ajuste fino, y esperamos que más investigaciones posteriores impulsen el progreso en la mitigación de este riesgo preocupante. El código y los datos utilizados en nuestros experimentos están disponibles en https://github.com/thu-coai/Backdoor-Data-Extraction.

English

Fine-tuning on open-source Large Language Models (LLMs) with proprietary data is now a standard practice for downstream developers to obtain task-specific LLMs. Surprisingly, we reveal a new and concerning risk along with the practice: the creator of the open-source LLMs can later extract the private downstream fine-tuning data through simple backdoor training, only requiring black-box access to the fine-tuned downstream model. Our comprehensive experiments, across 4 popularly used open-source models with 3B to 32B parameters and 2 downstream datasets, suggest that the extraction performance can be strikingly high: in practical settings, as much as 76.3% downstream fine-tuning data (queries) out of a total 5,000 samples can be perfectly extracted, and the success rate can increase to 94.9% in more ideal settings. We also explore a detection-based defense strategy but find it can be bypassed with improved attack. Overall, we highlight the emergency of this newly identified data breaching risk in fine-tuning, and we hope that more follow-up research could push the progress of addressing this concerning risk. The code and data used in our experiments are released at https://github.com/thu-coai/Backdoor-Data-Extraction.

¡Ten cuidado al ajustar modelos de lenguaje de código abierto: tus datos de ajuste podrían ser robados en secreto!

Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

Resumen

Support