ChatPaper.aiChatPaper

Будьте осторожны при тонкой настройке открытых LLM: ваши данные для тонкой настройки могут быть тайно украдены!

Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!

May 21, 2025
Авторы: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI

Аннотация

Тонкая настройка открытых крупных языковых моделей (LLM) с использованием проприетарных данных стала стандартной практикой для разработчиков, стремящихся получить специализированные LLM для конкретных задач. Однако мы обнаруживаем новую и тревожную угрозу, связанную с этой практикой: создатель открытой LLM может впоследствии извлечь приватные данные, использованные для тонкой настройки, с помощью простого обучения с использованием бэкдора, требующего лишь черного ящика доступа к настроенной модели. Наши всесторонние эксперименты, проведенные на 4 популярных открытых моделях с параметрами от 3B до 32B и 2 наборах данных для тонкой настройки, показывают, что эффективность извлечения может быть поразительно высокой: в практических условиях до 76,3% данных (запросов) из общего числа 5000 образцов могут быть идеально извлечены, а в более идеальных условиях успешность может достигать 94,9%. Мы также исследуем стратегию защиты на основе обнаружения, но обнаруживаем, что её можно обойти с помощью улучшенной атаки. В целом, мы подчеркиваем срочность решения этой новой угрозы утечки данных при тонкой настройке и надеемся, что дальнейшие исследования смогут продвинуть прогресс в устранении этой тревожной проблемы. Код и данные, использованные в наших экспериментах, доступны по адресу https://github.com/thu-coai/Backdoor-Data-Extraction.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data is now a standard practice for downstream developers to obtain task-specific LLMs. Surprisingly, we reveal a new and concerning risk along with the practice: the creator of the open-source LLMs can later extract the private downstream fine-tuning data through simple backdoor training, only requiring black-box access to the fine-tuned downstream model. Our comprehensive experiments, across 4 popularly used open-source models with 3B to 32B parameters and 2 downstream datasets, suggest that the extraction performance can be strikingly high: in practical settings, as much as 76.3% downstream fine-tuning data (queries) out of a total 5,000 samples can be perfectly extracted, and the success rate can increase to 94.9% in more ideal settings. We also explore a detection-based defense strategy but find it can be bypassed with improved attack. Overall, we highlight the emergency of this newly identified data breaching risk in fine-tuning, and we hope that more follow-up research could push the progress of addressing this concerning risk. The code and data used in our experiments are released at https://github.com/thu-coai/Backdoor-Data-Extraction.

Summary

AI-Generated Summary

PDF112May 22, 2025