Generalisatie op tokenniveau in LoRA-adapter-backdoors: Aanvalskarakterisering en gedragsdetectie

Samenvatting

We tonen aan dat LoRA-adapters, het dominante distributieformaat voor fijn afgestelde grote taalmodellen (LLM's), betrouwbaar kunnen worden voorzien van een backdoor via datavergiftiging tijdens training, met behoud van de basistaakprestatie. Op een Qwen 2.5 1.5B prompt-injectieclassificator drijft een kleine fractie van vergiftigde voorbeelden een backdoor die de schone nauwkeurigheid behoudt naar verzadiging. De resulterende backdoor generaliseert op het tokenkenmerkniveau in plaats van op het structuurpatroonniveau: een model dat is getraind op één RFC-referentie wordt geactiveerd door elke RFC-referentie, maar draagt niet over naar structureel identieke ISO-, OWASP-, CWE- of NIST-citaten. Deze asymmetrie bevoordeelt de aanvaller, aangezien een verdediger niet generiek kan zoeken naar 'gestructureerde citaten'. We karakteriseren de aanval over basismodel-schaal en -familie, LoRA-rank en triggerstring, en evalueren twee complementaire detectieroutes tegen een cohort van adapters met meerdere seeds. Een gedragsdetector, gebaseerd op twee statistieken uit een batterij probes, *outlier_gap* en *mean_attack_rate*, scheidt vergiftigde van schone adapters perfect wanneer de batterij overlapt met de tokenomgeving van de trigger, en bij hoge recall met nul fout-positieven wanneer dit niet het geval is. Een gewichtsniveaustatistiek, de cross-module standaarddeviatie van dimensie-genormaliseerde Frobenius-normen, scheidt het cohort ook perfect zonder het model uit te voeren. Gecombineerd zijn de twee routes robuust tegen de samenstelling van de probes. Causale patching lokaliseert de backdoor naar het MLP-blok in de middelste tot late lagen, met *down_proj* als de sterkste enkele projectie-oorzaak. Replicaties over schaal, familie en rank tonen aan dat de gedragsdetector overdraagt zonder opnieuw afstellen, terwijl de gewichtsniveaudetector gebonden is aan de kalibratie van het basismodel. De aanval schaalt monotoon met rank, en het gekozen trigger-ankertoken is zowel afhankelijk van de trigger als van het basismodel. Gedragsdetectie is het operationeel draagbare resultaat voor scanning van adapter-toeleveringsketens.

English

We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifier, a small fraction of poisoned examples drives a clean-accuracy-preserving backdoor to saturation. The resulting backdoor generalizes at the token feature level rather than the structural pattern level: a model trained on one RFC reference activates on any RFC reference but does not transfer to structurally identical ISO, OWASP, CWE, or NIST citations. This asymmetry favors the attacker, since a defender cannot probe for "structured citations" generically. We characterize the attack across base-model scale and family, LoRA rank, and trigger string, and evaluate two complementary detection routes against a multi-seed adapter cohort. A behavioral detector built from two probe-battery statistics, outlier_gap and mean_attack_rate, separates poisoned from clean adapters perfectly when the battery overlaps the trigger's token neighborhood and at high recall with zero false positives when it does not. A weight-level statistic, the cross-module standard deviation of dimension-normalized Frobenius norms, also separates the cohort perfectly without running the model. Combined, the two routes are robust to probe composition. Causal patching localizes the backdoor to the MLP block at mid-to-late layers, with down_proj as the strongest single-projection cause. Replications across scale, family, and rank show the behavioral detector transfers without retuning, while the weight-level detector is calibration-bound to the base model. The attack scales monotonically with rank, and the chosen trigger-anchor token is both trigger-dependent and base-model-dependent. Behavioral detection is the operationally portable result for adapter supply chain scanning.