언어 모델에서 주입(Injection)부터 증류(Distillation)에 이르는 연쇄적 적대적 편향
Cascading Adversarial Bias from Injection to Distillation in Language Models
May 30, 2025
저자: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea
cs.AI
초록
모델 디스틸레이션은 더 큰 시스템의 기능을 유지하면서 배포 가능한 소형 언어 모델을 생성하는 데 필수적인 기술이 되었습니다. 그러나 광범위한 배포는 적대적 조작에 대한 내성 문제를 제기합니다. 본 논문은 훈련 중 편향된 콘텐츠를 적대적으로 주입할 때 디스틸레이션된 모델의 취약성을 조사합니다. 우리는 적대자가 최소한의 데이터 중독을 통해 교사 모델에 미묘한 편향을 주입할 수 있으며, 이 편향이 학생 모델로 전파되어 상당히 증폭된다는 것을 입증합니다. 우리는 두 가지 전파 모드를 제안합니다: 다중 작업에 영향을 미치는 비표적 전파와 특정 작업에 초점을 맞추면서 다른 곳에서는 정상적인 행동을 유지하는 표적 전파입니다. 단 25개의 중독된 샘플(0.25% 중독률)만으로도 학생 모델은 표적 시나리오에서 76.9%의 편향된 응답을 생성하며, 이는 교사 모델의 69.4%보다 높습니다. 비표적 전파의 경우, 학생 모델에서 적대적 편향은 보이지 않는 작업에서 6배에서 29배 더 자주 나타납니다. 우리는 여섯 가지 편향 유형(표적 광고, 피싱 링크, 내러티브 조작, 불안전한 코딩 관행), 다양한 디스틸레이션 방법, 그리고 텍스트와 코드 생성에 걸친 다양한 모달리티에서 이러한 발견을 검증합니다. 우리의 평가는 현재의 방어 메커니즘(당혹도 필터링, 편향 탐지 시스템, LLM 기반 자동 평가 프레임워크)이 이러한 공격에 대해 부족함을 드러냅니다. 결과는 디스틸레이션된 모델의 상당한 보안 취약성을 노출하며, 특수한 보호 장치의 필요성을 강조합니다. 우리는 효과적인 적대적 편향 완화 전략을 구축하기 위한 실용적인 설계 원칙을 제안합니다.
English
Model distillation has become essential for creating smaller, deployable
language models that retain larger system capabilities. However, widespread
deployment raises concerns about resilience to adversarial manipulation. This
paper investigates vulnerability of distilled models to adversarial injection
of biased content during training. We demonstrate that adversaries can inject
subtle biases into teacher models through minimal data poisoning, which
propagates to student models and becomes significantly amplified. We propose
two propagation modes: Untargeted Propagation, where bias affects multiple
tasks, and Targeted Propagation, focusing on specific tasks while maintaining
normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning
rate), student models generate biased responses 76.9% of the time in targeted
scenarios - higher than 69.4% in teacher models. For untargeted propagation,
adversarial bias appears 6x-29x more frequently in student models on unseen
tasks. We validate findings across six bias types (targeted advertisements,
phishing links, narrative manipulations, insecure coding practices), various
distillation methods, and different modalities spanning text and code
generation. Our evaluation reveals shortcomings in current defenses -
perplexity filtering, bias detection systems, and LLM-based autorater
frameworks - against these attacks. Results expose significant security
vulnerabilities in distilled models, highlighting need for specialized
safeguards. We propose practical design principles for building effective
adversarial bias mitigation strategies.