오픈소스 LLM에 대한 미세 조정 시 주의하라: 당신의 미세 조정 데이터가 몰래 도난당할 수 있다!
Be Careful When Fine-tuning On Open-Source LLMs: Your Fine-tuning Data Could Be Secretly Stolen!
May 21, 2025
저자: Zhexin Zhang, Yuhao Sun, Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
cs.AI
초록
오픈소스 대형 언어 모델(LLM)에 자체 데이터를 활용한 미세 조정(Fine-tuning)은
다운스트림 개발자들이 특정 작업에 맞는 LLM을 얻기 위해 현재 널리 사용되는
표준적인 방법입니다. 그러나 우리는 이와 관련해 새로운 우려스러운 위험 요소를
발견했습니다: 오픈소스 LLM의 제작자가 나중에 단순한 백도어 학습을 통해 다운스트림
미세 조정 데이터를 추출할 수 있다는 점입니다. 이는 다운스트림 모델에 대한 블랙박스
접근만으로도 가능합니다. 우리는 3B에서 32B 파라미터를 가진 4개의 널리 사용되는
오픈소스 모델과 2개의 다운스트림 데이터셋을 대상으로 포괄적인 실험을 진행한 결과,
데이터 추출 성능이 놀라울 정도로 높을 수 있음을 확인했습니다: 실제 환경에서 총
5,000개 샘플 중 최대 76.3%의 다운스트림 미세 조정 데이터(쿼리)가 완벽하게
추출될 수 있으며, 더 이상적인 환경에서는 성공률이 94.9%까지 증가할 수 있습니다.
또한 탐지 기반 방어 전략을 탐구했지만, 개선된 공격으로 이를 우회할 수 있음을
알게 되었습니다. 전반적으로, 우리는 미세 조정 과정에서 새롭게 발견된 데이터
유출 위험의 긴급성을 강조하며, 이 우려스러운 위험을 해결하기 위한 후속 연구가
진행되기를 바랍니다. 우리 실험에 사용된 코드와 데이터는
https://github.com/thu-coai/Backdoor-Data-Extraction에서 공개되었습니다.
English
Fine-tuning on open-source Large Language Models (LLMs) with proprietary data
is now a standard practice for downstream developers to obtain task-specific
LLMs. Surprisingly, we reveal a new and concerning risk along with the
practice: the creator of the open-source LLMs can later extract the private
downstream fine-tuning data through simple backdoor training, only requiring
black-box access to the fine-tuned downstream model. Our comprehensive
experiments, across 4 popularly used open-source models with 3B to 32B
parameters and 2 downstream datasets, suggest that the extraction performance
can be strikingly high: in practical settings, as much as 76.3% downstream
fine-tuning data (queries) out of a total 5,000 samples can be perfectly
extracted, and the success rate can increase to 94.9% in more ideal settings.
We also explore a detection-based defense strategy but find it can be bypassed
with improved attack. Overall, we highlight the emergency of this newly
identified data breaching risk in fine-tuning, and we hope that more follow-up
research could push the progress of addressing this concerning risk. The code
and data used in our experiments are released at
https://github.com/thu-coai/Backdoor-Data-Extraction.Summary
AI-Generated Summary