GradSentry: Gradienten-Spektralentropie zur Backdoor-Probenfilterung bei der Feinabstimmung großer Sprachmodelle

Zusammenfassung

Feinabstimmung großer Sprachmodelle mit nicht vertrauenswürdigen Daten setzt die Modelle Backdoor-Angriffen aus, bei denen vergiftete Stichproben gezieltes Fehlverhalten verursachen. Bestehende auf Stichprobenfilterung basierende Abwehrmaßnahmen verwenden Clustering, das ausreichende Datenmengen erfordert und bei extremen Vergiftungsraten versagen kann. Wir schlagen GradSentry ({Grad}ient {Sentry}) vor, eine Methode zur Filterung von Backdoor-Stichproben auf Basis der spektralen Entropie stichprobenbezogener Gradienten. Unser zentraler Befund ist, dass vergiftete Stichproben im Vergleich zu sauberen Stichproben Gradienten mit höherer spektraler Entropie erzeugen. GradSentry erfasst ausgabeverändernde Backdoor-Signaturen anhand der Spektren stichprobenbezogener Gradienten und vermeidet dabei paarweise Stichprobenvergleiche sowie Clustering während der Merkmalskonstruktion. Wichtig ist, dass unsere Methode trainingsagnostisch ist: Sie funktioniert sowohl für parametereffiziente Feinabstimmungsmethoden wie LoRA als auch für die vollständige Parameteranpassung, da die Gradientenanalyse unabhängig davon arbeitet, welche Parameter während des Trainings aktualisiert werden. GradSentry benötigt kein Clustering, funktioniert effektiv über alle Vergiftungsraten (1 %–90 %) hinweg und verursacht nur minimalen Rechenaufwand (20–50 ms pro Stichprobe für ein 7B-Modell). Die Evaluierung an vier Frage-Antwort-Datensätzen und vier Angriffsarten zeigt die Wirksamkeit der spektralen Entropie zur Backdoor-Erkennung. Der Code ist verfügbar unter https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.