Cascada de Sesgo Adversario desde la Inyección hasta la Destilación en Modelos de Lenguaje
Cascading Adversarial Bias from Injection to Distillation in Language Models
May 30, 2025
Autores: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea
cs.AI
Resumen
La destilación de modelos se ha vuelto esencial para crear modelos de lenguaje más pequeños y desplegables que conserven las capacidades de sistemas más grandes. Sin embargo, el despliegue generalizado plantea preocupaciones sobre la resiliencia frente a la manipulación adversaria. Este artículo investiga la vulnerabilidad de los modelos destilados a la inyección adversaria de contenido sesgado durante el entrenamiento. Demostramos que los adversarios pueden inyectar sesgos sutiles en los modelos maestros mediante un envenenamiento mínimo de datos, lo cual se propaga a los modelos estudiantes y se amplifica significativamente. Proponemos dos modos de propagación: Propagación No Dirigida, donde el sesgo afecta múltiples tareas, y Propagación Dirigida, enfocándose en tareas específicas mientras se mantiene un comportamiento normal en otros aspectos. Con solo 25 muestras envenenadas (tasa de envenenamiento del 0.25%), los modelos estudiantes generan respuestas sesgadas el 76.9% de las veces en escenarios dirigidos, superior al 69.4% en los modelos maestros. Para la propagación no dirigida, el sesgo adversario aparece de 6 a 29 veces más frecuentemente en los modelos estudiantes en tareas no vistas. Validamos los hallazgos en seis tipos de sesgos (anuncios dirigidos, enlaces de phishing, manipulaciones narrativas, prácticas de codificación inseguras), varios métodos de destilación y diferentes modalidades que abarcan la generación de texto y código. Nuestra evaluación revela deficiencias en las defensas actuales —filtrado de perplejidad, sistemas de detección de sesgos y marcos de autorater basados en LLM— frente a estos ataques. Los resultados exponen vulnerabilidades de seguridad significativas en los modelos destilados, destacando la necesidad de salvaguardas especializadas. Proponemos principios de diseño prácticos para construir estrategias efectivas de mitigación de sesgos adversarios.
English
Model distillation has become essential for creating smaller, deployable
language models that retain larger system capabilities. However, widespread
deployment raises concerns about resilience to adversarial manipulation. This
paper investigates vulnerability of distilled models to adversarial injection
of biased content during training. We demonstrate that adversaries can inject
subtle biases into teacher models through minimal data poisoning, which
propagates to student models and becomes significantly amplified. We propose
two propagation modes: Untargeted Propagation, where bias affects multiple
tasks, and Targeted Propagation, focusing on specific tasks while maintaining
normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning
rate), student models generate biased responses 76.9% of the time in targeted
scenarios - higher than 69.4% in teacher models. For untargeted propagation,
adversarial bias appears 6x-29x more frequently in student models on unseen
tasks. We validate findings across six bias types (targeted advertisements,
phishing links, narrative manipulations, insecure coding practices), various
distillation methods, and different modalities spanning text and code
generation. Our evaluation reveals shortcomings in current defenses -
perplexity filtering, bias detection systems, and LLM-based autorater
frameworks - against these attacks. Results expose significant security
vulnerabilities in distilled models, highlighting need for specialized
safeguards. We propose practical design principles for building effective
adversarial bias mitigation strategies.