ChatPaper.aiChatPaper

Cascada de Sesgo Adversario desde la Inyección hasta la Destilación en Modelos de Lenguaje

Cascading Adversarial Bias from Injection to Distillation in Language Models

May 30, 2025
Autores: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea
cs.AI

Resumen

La destilación de modelos se ha vuelto esencial para crear modelos de lenguaje más pequeños y desplegables que conserven las capacidades de sistemas más grandes. Sin embargo, el despliegue generalizado plantea preocupaciones sobre la resiliencia frente a la manipulación adversaria. Este artículo investiga la vulnerabilidad de los modelos destilados a la inyección adversaria de contenido sesgado durante el entrenamiento. Demostramos que los adversarios pueden inyectar sesgos sutiles en los modelos maestros mediante un envenenamiento mínimo de datos, lo cual se propaga a los modelos estudiantes y se amplifica significativamente. Proponemos dos modos de propagación: Propagación No Dirigida, donde el sesgo afecta múltiples tareas, y Propagación Dirigida, enfocándose en tareas específicas mientras se mantiene un comportamiento normal en otros aspectos. Con solo 25 muestras envenenadas (tasa de envenenamiento del 0.25%), los modelos estudiantes generan respuestas sesgadas el 76.9% de las veces en escenarios dirigidos, superior al 69.4% en los modelos maestros. Para la propagación no dirigida, el sesgo adversario aparece de 6 a 29 veces más frecuentemente en los modelos estudiantes en tareas no vistas. Validamos los hallazgos en seis tipos de sesgos (anuncios dirigidos, enlaces de phishing, manipulaciones narrativas, prácticas de codificación inseguras), varios métodos de destilación y diferentes modalidades que abarcan la generación de texto y código. Nuestra evaluación revela deficiencias en las defensas actuales —filtrado de perplejidad, sistemas de detección de sesgos y marcos de autorater basados en LLM— frente a estos ataques. Los resultados exponen vulnerabilidades de seguridad significativas en los modelos destilados, destacando la necesidad de salvaguardas especializadas. Proponemos principios de diseño prácticos para construir estrategias efectivas de mitigación de sesgos adversarios.
English
Model distillation has become essential for creating smaller, deployable language models that retain larger system capabilities. However, widespread deployment raises concerns about resilience to adversarial manipulation. This paper investigates vulnerability of distilled models to adversarial injection of biased content during training. We demonstrate that adversaries can inject subtle biases into teacher models through minimal data poisoning, which propagates to student models and becomes significantly amplified. We propose two propagation modes: Untargeted Propagation, where bias affects multiple tasks, and Targeted Propagation, focusing on specific tasks while maintaining normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning rate), student models generate biased responses 76.9% of the time in targeted scenarios - higher than 69.4% in teacher models. For untargeted propagation, adversarial bias appears 6x-29x more frequently in student models on unseen tasks. We validate findings across six bias types (targeted advertisements, phishing links, narrative manipulations, insecure coding practices), various distillation methods, and different modalities spanning text and code generation. Our evaluation reveals shortcomings in current defenses - perplexity filtering, bias detection systems, and LLM-based autorater frameworks - against these attacks. Results expose significant security vulnerabilities in distilled models, highlighting need for specialized safeguards. We propose practical design principles for building effective adversarial bias mitigation strategies.
PDF62June 3, 2025