Biais Adversarial en Cascade : De l'Injection à la Distillation dans les Modèles de Langage

papers.abstract

La distillation de modèles est devenue essentielle pour créer des modèles de langage plus petits et déployables tout en conservant les capacités des systèmes plus volumineux. Cependant, le déploiement à grande échelle soulève des inquiétudes concernant la résilience face aux manipulations adverses. Cet article étudie la vulnérabilité des modèles distillés à l'injection de contenu biaisé par des adversaires pendant l'entraînement. Nous démontrons que des adversaires peuvent injecter des biais subtils dans les modèles enseignants via un empoisonnement minimal des données, qui se propage ensuite aux modèles étudiants et s'y amplifie de manière significative. Nous proposons deux modes de propagation : la Propagation Non Ciblée, où le biais affecte plusieurs tâches, et la Propagation Ciblée, qui se concentre sur des tâches spécifiques tout en maintenant un comportement normal ailleurs. Avec seulement 25 échantillons empoisonnés (taux d'empoisonnement de 0,25 %), les modèles étudiants génèrent des réponses biaisées 76,9 % du temps dans des scénarios ciblés - un taux supérieur aux 69,4 % observés dans les modèles enseignants. Pour la propagation non ciblée, le biais adverse apparaît 6 à 29 fois plus fréquemment dans les modèles étudiants sur des tâches non vues. Nous validons ces résultats à travers six types de biais (publicités ciblées, liens de phishing, manipulations narratives, pratiques de codage non sécurisées), diverses méthodes de distillation, et différentes modalités couvrant la génération de texte et de code. Notre évaluation révèle les lacunes des défenses actuelles - filtrage par perplexité, systèmes de détection de biais, et cadres d'auto-évaluation basés sur LLM - face à ces attaques. Les résultats exposent des vulnérabilités de sécurité significatives dans les modèles distillés, soulignant la nécessité de protections spécialisées. Nous proposons des principes de conception pratiques pour élaborer des stratégies efficaces d'atténuation des biais adverses.

English

Model distillation has become essential for creating smaller, deployable language models that retain larger system capabilities. However, widespread deployment raises concerns about resilience to adversarial manipulation. This paper investigates vulnerability of distilled models to adversarial injection of biased content during training. We demonstrate that adversaries can inject subtle biases into teacher models through minimal data poisoning, which propagates to student models and becomes significantly amplified. We propose two propagation modes: Untargeted Propagation, where bias affects multiple tasks, and Targeted Propagation, focusing on specific tasks while maintaining normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning rate), student models generate biased responses 76.9% of the time in targeted scenarios - higher than 69.4% in teacher models. For untargeted propagation, adversarial bias appears 6x-29x more frequently in student models on unseen tasks. We validate findings across six bias types (targeted advertisements, phishing links, narrative manipulations, insecure coding practices), various distillation methods, and different modalities spanning text and code generation. Our evaluation reveals shortcomings in current defenses - perplexity filtering, bias detection systems, and LLM-based autorater frameworks - against these attacks. Results expose significant security vulnerabilities in distilled models, highlighting need for specialized safeguards. We propose practical design principles for building effective adversarial bias mitigation strategies.

Biais Adversarial en Cascade : De l'Injection à la Distillation dans les Modèles de Langage

Cascading Adversarial Bias from Injection to Distillation in Language Models

papers.abstract

Support