Каскадное распространение предвзятости от внедрения к дистилляции в языковых моделях
Cascading Adversarial Bias from Injection to Distillation in Language Models
May 30, 2025
Авторы: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea
cs.AI
Аннотация
Дистилляция моделей стала важным инструментом для создания компактных, развертываемых языковых моделей, сохраняющих возможности более крупных систем. Однако широкое внедрение вызывает опасения относительно устойчивости к враждебным манипуляциям. В данной работе исследуется уязвимость дистиллированных моделей к внедрению предвзятого контента злоумышленниками в процессе обучения. Мы демонстрируем, что злоумышленники могут внедрить тонкие предубеждения в модели-учителя через минимальное отравление данных, которые передаются моделям-ученикам и значительно усиливаются. Мы предлагаем два режима распространения: Ненаправленное Распространение, где предубеждение влияет на множество задач, и Направленное Распространение, сосредоточенное на конкретных задачах при сохранении нормального поведения в остальных случаях. Всего с 25 отравленными образцами (0,25% уровня отравления) модели-ученики генерируют предвзятые ответы в 76,9% случаев в направленных сценариях — это выше, чем 69,4% у моделей-учителей. При ненаправленном распространении враждебные предубеждения появляются в 6–29 раз чаще в моделях-учениках на неизвестных задачах. Мы подтверждаем результаты для шести типов предубеждений (целевая реклама, фишинговые ссылки, манипуляции с нарративами, небезопасные практики программирования), различных методов дистилляции и модальностей, включая генерацию текста и кода. Наша оценка выявляет недостатки современных защитных механизмов — фильтрации по перплексии, систем обнаружения предубеждений и фреймворков автооценки на основе LLM — против таких атак. Результаты раскрывают значительные уязвимости в безопасности дистиллированных моделей, подчеркивая необходимость специализированных мер защиты. Мы предлагаем практические принципы проектирования для создания эффективных стратегий смягчения враждебных предубеждений.
English
Model distillation has become essential for creating smaller, deployable
language models that retain larger system capabilities. However, widespread
deployment raises concerns about resilience to adversarial manipulation. This
paper investigates vulnerability of distilled models to adversarial injection
of biased content during training. We demonstrate that adversaries can inject
subtle biases into teacher models through minimal data poisoning, which
propagates to student models and becomes significantly amplified. We propose
two propagation modes: Untargeted Propagation, where bias affects multiple
tasks, and Targeted Propagation, focusing on specific tasks while maintaining
normal behavior elsewhere. With only 25 poisoned samples (0.25% poisoning
rate), student models generate biased responses 76.9% of the time in targeted
scenarios - higher than 69.4% in teacher models. For untargeted propagation,
adversarial bias appears 6x-29x more frequently in student models on unseen
tasks. We validate findings across six bias types (targeted advertisements,
phishing links, narrative manipulations, insecure coding practices), various
distillation methods, and different modalities spanning text and code
generation. Our evaluation reveals shortcomings in current defenses -
perplexity filtering, bias detection systems, and LLM-based autorater
frameworks - against these attacks. Results expose significant security
vulnerabilities in distilled models, highlighting need for specialized
safeguards. We propose practical design principles for building effective
adversarial bias mitigation strategies.