Généralisation au niveau des tokens dans les backdoors d'adaptateurs LoRA : Caractérisation des attaques et détection comportementale

Résumé

Nous montrons que les adaptateurs LoRA, le format de distribution dominant pour les LLMs affinés, peuvent être fiabilisés par l’introduction d’une porte dérobée via un empoisonnement des données d’entraînement tout en préservant les performances de la tâche de base. Sur un classifieur d’injection de prompt Qwen 2.5 1.5B, une petite fraction d’exemples empoisonnés conduit à la saturation d’une porte dérobée préservant la précision propre. La porte dérobée résultante généralise au niveau des caractéristiques des tokens plutôt qu’au niveau des motifs structurels : un modèle entraîné sur une référence RFC s’active sur toute référence RFC mais ne se transfère pas à des citations ISO, OWASP, CWE ou NIST structurellement identiques. Cette asymétrie favorise l’attaquant, car un défenseur ne peut pas sonder génériquement les « citations structurées ». Nous caractérisons l’attaque à travers l’échelle et la famille du modèle de base, le rang LoRA et la chaîne de déclenchement, et évaluons deux voies de détection complémentaires sur une cohorte d’adaptateurs multi-graines. Un détecteur comportemental construit à partir de deux statistiques issues d’une batterie de sondes, outlier_gap et mean_attack_rate, sépare parfaitement les adaptateurs empoisonnés des adaptateurs propres lorsque la batterie chevauche le voisinage du token déclencheur, et avec un rappel élevé sans faux positifs dans le cas contraire. Une statistique au niveau des poids, l’écart-type inter-module des normes de Frobenius normalisées par dimension, sépare également parfaitement la cohorte sans exécuter le modèle. Combinées, les deux voies sont robustes à la composition des sondes. Le patching causal localise la porte dérobée dans le bloc MLP aux couches intermédiaires à tardives, avec down_proj comme la cause de projection unique la plus forte. Les réplications à travers l’échelle, la famille et le rang montrent que le détecteur comportemental se transfère sans réglage, tandis que le détecteur au niveau des poids dépend de la calibration du modèle de base. L’attaque évolue de façon monotone avec le rang, et le jeton d’ancrage du déclencheur choisi dépend à la fois du déclencheur et du modèle de base. La détection comportementale constitue le résultat portable sur le plan opérationnel pour le scan de la chaîne d’approvisionnement des adaptateurs.

English

We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifier, a small fraction of poisoned examples drives a clean-accuracy-preserving backdoor to saturation. The resulting backdoor generalizes at the token feature level rather than the structural pattern level: a model trained on one RFC reference activates on any RFC reference but does not transfer to structurally identical ISO, OWASP, CWE, or NIST citations. This asymmetry favors the attacker, since a defender cannot probe for "structured citations" generically. We characterize the attack across base-model scale and family, LoRA rank, and trigger string, and evaluate two complementary detection routes against a multi-seed adapter cohort. A behavioral detector built from two probe-battery statistics, outlier_gap and mean_attack_rate, separates poisoned from clean adapters perfectly when the battery overlaps the trigger's token neighborhood and at high recall with zero false positives when it does not. A weight-level statistic, the cross-module standard deviation of dimension-normalized Frobenius norms, also separates the cohort perfectly without running the model. Combined, the two routes are robust to probe composition. Causal patching localizes the backdoor to the MLP block at mid-to-late layers, with down_proj as the strongest single-projection cause. Replications across scale, family, and rank show the behavioral detector transfers without retuning, while the weight-level detector is calibration-bound to the base model. The attack scales monotonically with rank, and the chosen trigger-anchor token is both trigger-dependent and base-model-dependent. Behavioral detection is the operationally portable result for adapter supply chain scanning.