GradSentry: Entropia Espectral do Gradiente para Filtragem de Amostras Backdoor no Ajuste Fino de Modelos de Linguagem de Grande Porte

Resumo

O ajuste fino de Modelos de Linguagem de Grande Escala com dados não confiáveis expõe os modelos a ataques de backdoor, nos quais amostras envenenadas causam comportamentos inadequados direcionados. As defesas existentes de filtragem de amostras dependem de clusterização, que requer dados suficientes e pode falhar em taxas de envenenamento extremas. Propomos o GradSentry ({Grad}ient {Sentry}), um método de filtragem de amostras de backdoor baseado na entropia espectral dos gradientes por amostra. Nossa principal descoberta é que amostras envenenadas produzem gradientes com entropia espectral mais alta em comparação com amostras limpas. O GradSentry captura assinaturas de backdoor que alteram a saída usando espectros de gradientes por amostra, evitando comparações pareadas de amostras e clusterização durante a construção de características. Importante, nosso método é independente do treinamento: funciona tanto para métodos de ajuste fino eficientes em parâmetros, como LoRA, quanto para ajuste de parâmetros completos, já que a análise de gradientes opera independentemente de quais parâmetros estão sendo atualizados durante o treinamento. O GradSentry não requer clusterização, opera eficazmente em todas as taxas de envenenamento (1%–90%) e introduz sobrecarga computacional mínima (20–50 ms por amostra para modelo de 7B). A avaliação em quatro conjuntos de dados de QA e quatro tipos de ataque demonstra a eficácia da entropia espectral para detecção de backdoor. O código está disponível em https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.