GradSentry: Entropía Espectral del Gradiente para el Filtrado de Muestras Backdoor en el Ajuste Fino de Modelos de Lenguaje Grande

Resumen

El ajuste fino de modelos de lenguaje grandes con datos no confiables expone a los modelos a ataques de puerta trasera, donde muestras envenenadas provocan comportamientos incorrectos dirigidos. Las defensas existentes basadas en filtrado de muestras recurren a la agrupación (clustering), lo que requiere suficientes datos y puede fallar en proporciones extremas de envenenamiento. Proponemos GradSentry ({Grad}ient {Sentry}), un método de filtrado de muestras con puerta trasera basado en la entropía espectral de los gradientes por muestra. Nuestro hallazgo clave es que las muestras envenenadas producen gradientes con una entropía espectral más alta en comparación con las muestras limpias. GradSentry captura firmas de puerta trasera que alteran la salida mediante espectros de gradientes por muestra, evitando comparaciones por pares de muestras y agrupación durante la construcción de características. Es importante destacar que nuestro método es independiente del entrenamiento: funciona tanto para métodos de ajuste fino eficientes en parámetros, como LoRA, como para el ajuste completo de parámetros, ya que el análisis de gradientes opera independientemente de qué parámetros se actualicen durante el entrenamiento. GradSentry no requiere agrupación, opera de manera efectiva en todas las proporciones de envenenamiento (1%–90%) e introduce una sobrecarga computacional mínima (20–50 ms por muestra para un modelo de 7B). La evaluación en cuatro conjuntos de datos de preguntas y respuestas y cuatro tipos de ataque demuestra la eficacia de la entropía espectral para la detección de puertas traseras. El código está disponible en https://github.com/dongdongzhaoUP/GradSentry.

English

Fine-tuning Large Language Models with untrusted data exposes models to backdoor attacks, where poisoned samples cause targeted misbehavior. Existing sample-filtering defenses rely on clustering, which requires sufficient data and can fail at extreme poison ratios. We propose GradSentry ({Grad}ient {Sentry}), a backdoor sample filtering method based on the spectral entropy of per-sample gradients. Our key finding is that poisoned samples produce gradients with higher spectral entropy compared to clean samples. GradSentry captures output-altering backdoor signatures using per-sample gradient spectra, avoiding pairwise sample comparisons and clustering during feature construction. Importantly, our method is training-agnostic: it works for both parameter-efficient fine-tuning methods like LoRA and full-parameter tuning, as the gradient analysis operates independently of which parameters are being updated during training. GradSentry requires no clustering, operates effectively across all poison ratios (1%--90%), and introduces minimal computational overhead (20-50ms per sample for 7B model). Evaluation on four QA datasets and four attack types demonstrates the effectiveness of spectral entropy for backdoor detection. Code is available at https://github.com/dongdongzhaoUP/GradSentry.