GradSentry: Градиентная спектральная энтропия для фильтрации бэкдор-образцов при дообучении больших языковых моделей

Аннотация

Тонкая настройка больших языковых моделей с использованием ненадежных данных делает модели уязвимыми для атак типа «бэкдор», при которых отравленные образцы вызывают целевое некорректное поведение. Существующие методы защиты на основе фильтрации образцов опираются на кластеризацию, что требует достаточного объема данных и может оказаться неэффективным при экстремальных пропорциях отравленных образцов. Мы предлагаем GradSentry ({Grad}ient {Sentry}) — метод фильтрации бэкдор-образцов, основанный на спектральной энтропии градиентов на каждый образец. Наше ключевое наблюдение заключается в том, что отравленные образцы порождают градиенты с более высокой спектральной энтропией по сравнению с чистыми образцами. GradSentry выявляет сигнатуры бэкдор-атак, изменяющие выходные данные, используя спектры градиентов на каждый образец, что позволяет избежать попарного сравнения образцов и кластеризации при построении признаков. Важно, что наш метод не зависит от метода обучения: он работает как для эффективной по параметрам тонкой настройки (например, LoRA), так и для полной настройки параметров, поскольку анализ градиентов выполняется независимо от того, какие параметры обновляются в процессе обучения. GradSentry не требует кластеризации, эффективно работает при всех пропорциях отравленных образцов (от 1% до 90%) и вносит минимальные вычислительные накладные расходы (20–50 мс на образец для модели с 7 млрд параметров). Оценка на четырех наборах данных для вопросно-ответных систем и четырех типах атак демонстрирует эффективность спектральной энтропии для обнаружения бэкдор-атак. Код доступен по адресу https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.