GradSentry : Entropie spectrale du gradient pour le filtrage d'échantillons backdoor dans l'ajustement fin des grands modèles de langage

Résumé

L'affinage des grands modèles de langue avec des données non fiables expose ces modèles à des attaques par porte dérobée, où des échantillons empoisonnés provoquent un comportement ciblé erroné. Les défenses existantes basées sur le filtrage d'échantillons reposent sur le clustering, qui nécessite suffisamment de données et peut échouer à des ratios d'empoisonnement extrêmes. Nous proposons GradSentry ({Grad}ient {Sentry}), une méthode de filtrage des échantillons empoisonnés fondée sur l'entropie spectrale des gradients par échantillon. Notre constat clé est que les échantillons empoisonnés produisent des gradients avec une entropie spectrale plus élevée que les échantillons propres. GradSentry capture les signatures de porte dérobée modifiant la sortie à l'aide du spectre des gradients par échantillon, évitant ainsi les comparaisons par paires d'échantillons et le clustering lors de la construction des caractéristiques. De manière importante, notre méthode est indépendante de l'entraînement : elle fonctionne à la fois pour les méthodes d'affinage efficaces en paramètres comme LoRA et pour l'affinage complet des paramètres, car l'analyse des gradients opère indépendamment des paramètres mis à jour pendant l'entraînement. GradSentry ne nécessite pas de clustering, fonctionne efficacement pour tous les ratios d'empoisonnement (1 % à 90 %) et introduit une surcharge de calcul minimale (20 à 50 ms par échantillon pour un modèle de 7 milliards de paramètres). L'évaluation sur quatre ensembles de données de questions-réponses et quatre types d'attaques démontre l'efficacité de l'entropie spectrale pour la détection des portes dérobées. Le code est disponible à l'adresse https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.