Biais Adversarial en Cascade : De l'Injection à la Distillation dans les Modèles de Langage
Cascading Adversarial Bias from Injection to Distillation in Language Models
May 30, 2025
Auteurs: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea
cs.AI
Résumé
La distillation de modèles est devenue essentielle pour créer des modèles de langage plus petits et déployables tout en conservant les capacités des systèmes plus volumineux. Cependant, le déploiement à grande échelle soulève des inquiétudes concernant la résilience face aux manipulations adverses. Cet article étudie la vulnérabilité des modèles distillés à l'injection de contenu biaisé par des adversaires pendant l'entraînement. Nous démontrons que des adversaires peuvent injecter des biais subtils dans les modèles enseignants via un empoisonnement minimal des données, qui se propage ensuite aux modèles étudiants et s'y amplifie de manière significative. Nous proposons deux modes de propagation : la Propagation Non Ciblée, où le biais affecte plusieurs tâches, et la Propagation Ciblée, qui se concentre sur des tâches spécifiques tout en maintenant un comportement normal ailleurs. Avec seulement 25 échantillons empoisonnés (taux d'empoisonnement de 0,25 %), les modèles étudiants génèrent des réponses biaisées 76,9 % du temps dans des scénarios ciblés - un taux supérieur aux 69,4 % observés dans les modèles enseignants. Pour la propagation non ciblée, le biais adverse apparaît 6 à 29 fois plus fréquemment dans les modèles étudiants sur des tâches non vues. Nous validons ces résultats à travers six types de biais (publicités ciblées, liens de phishing, manipulations narratives, pratiques de codage non sécurisées), diverses méthodes de distillation, et différentes modalités couvrant la génération de texte et de code. Notre évaluation révèle les lacunes des défenses actuelles - filtrage par perplexité, systèmes de détection de biais, et cadres d'auto-évaluation basés sur LLM - face à ces attaques. Les résultats exposent des vulnérabilités de sécurité significatives dans les modèles distillés, soulignant la nécessité de protections spécialisées. Nous proposons des principes de conception pratiques pour élaborer des stratégies efficaces d'atténuation des biais adverses.
English
Model distillation has become essential for creating smaller, deployable
language models that retain larger system capabilities. However, widespread
deployment raises concerns about resilience to adversarial manipulation. This
paper investigates vulnerability of distilled models to adversarial injection
of biased content during training. We demonstrate that adversaries can inject
subtle biases into teacher models through minimal data poisoning, which
propagates to student models and becomes significantly amplified. We propose
two propagation modes: Untargeted Propagation, where bias affects multiple
tasks, and Targeted Propagation, focusing on specific tasks while maintaining
normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning
rate), student models generate biased responses 76.9% of the time in targeted
scenarios - higher than 69.4% in teacher models. For untargeted propagation,
adversarial bias appears 6x-29x more frequently in student models on unseen
tasks. We validate findings across six bias types (targeted advertisements,
phishing links, narrative manipulations, insecure coding practices), various
distillation methods, and different modalities spanning text and code
generation. Our evaluation reveals shortcomings in current defenses -
perplexity filtering, bias detection systems, and LLM-based autorater
frameworks - against these attacks. Results expose significant security
vulnerabilities in distilled models, highlighting need for specialized
safeguards. We propose practical design principles for building effective
adversarial bias mitigation strategies.