GradSentry: Gradiënt Spectrale Entropie voor het Filteren van Backdoor-monsters bij Fine-Tuning van Grote Taalmodellen

Samenvatting

Het finetunen van grote taalmodellen met onbetrouwbare gegevens stelt modellen bloot aan backdoor-aanvallen, waarbij vergiftigde monsters gericht ongewenst gedrag veroorzaken. Bestaande verdedigingen op basis van monsterfiltering vertrouwen op clustering, wat voldoende gegevens vereist en kan falen bij extreme vergiftigingsverhoudingen. Wij stellen GradSentry ({Grad}ient {Sentry}) voor, een methode voor het filteren van backdoor-monsters op basis van de spectrale entropie van gradients per monster. Onze belangrijkste bevinding is dat vergiftigde monsters gradients produceren met een hogere spectrale entropie vergeleken met schone monsters. GradSentry vangt uitgangsveranderende backdoor-kenmerken door gebruik te maken van gradientspectra per monster, waarbij paarsgewijze monstervergelijkingen en clustering tijdens kenmerkconstructie worden vermeden. Belangrijk is dat onze methode trainingsagnostisch is: het werkt zowel voor parameter-efficiënte finetunemethoden zoals LoRA als voor volledige parameterafstemming, omdat de gradientanalyse onafhankelijk werkt van welke parameters tijdens de training worden bijgewerkt. GradSentry vereist geen clustering, werkt effectief bij alle vergiftigingsverhoudingen (1%-90%) en introduceert minimale computationele overhead (20-50 ms per monster voor een 7B-model). Evaluatie op vier QA-datasets en vier aanvalstypen toont de effectiviteit van spectrale entropie voor backdoor-detectie aan. Code is beschikbaar op https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.