Generalización a nivel de token en puertas traseras de adaptadores LoRA: Caracterización de ataques y detección conductual

Resumen

Demostramos que los adaptadores LoRA, el formato de distribución dominante para LLMs ajustados, pueden ser manipulados de manera confiable mediante envenenamiento de datos de entrenamiento, manteniendo al mismo tiempo el rendimiento en la tarea base. En un clasificador de inyección de indicaciones Qwen 2.5 1.5B, una pequeña fracción de ejemplos envenenados lleva a saturación una puerta trasera que preserva la precisión limpia. La puerta trasera resultante se generaliza a nivel de características de token, no a nivel de patrón estructural: un modelo entrenado con una referencia RFC se activa con cualquier referencia RFC, pero no se transfiere a citas estructuralmente idénticas de ISO, OWASP, CWE o NIST. Esta asimetría favorece al atacante, ya que un defensor no puede sondear genéricamente "citas estructuradas". Caracterizamos el ataque en distintas escalas y familias del modelo base, rango LoRA y cadena desencadenante, y evaluamos dos rutas de detección complementarias frente a una cohorte de adaptadores con múltiples semillas. Un detector conductual construido a partir de dos estadísticas de batería de pruebas, outlier_gap y mean_attack_rate, separa perfectamente los adaptadores envenenados de los limpios cuando la batería se superpone con el vecindario de token del desencadenante, y con alta recuperación sin falsos positivos cuando no lo hace. Una estadística a nivel de pesos, la desviación estándar entre módulos de las normas de Frobenius normalizadas por dimensión, también separa perfectamente la cohorte sin ejecutar el modelo. Combinadas, las dos rutas son robustas a la composición de la batería de pruebas. El parcheo causal localiza la puerta trasera en el bloque MLP de capas medias a tardías, siendo down_proj la causa de proyección única más fuerte. Las réplicas en distintas escalas, familias y rangos muestran que el detector conductual se transfiere sin reajuste, mientras que el detector a nivel de pesos está vinculado por calibración al modelo base. El ataque escala monótonamente con el rango, y el token ancla desencadenante elegido depende tanto del desencadenante como del modelo base. La detección conductual es el resultado operativamente portable para el escaneo de cadenas de suministro de adaptadores.

English

We show that LoRA adapters, the dominant distribution format for fine-tuned LLMs, can be reliably backdoored through training data poisoning while preserving baseline task performance. On a Qwen 2.5 1.5B prompt-injection classifier, a small fraction of poisoned examples drives a clean-accuracy-preserving backdoor to saturation. The resulting backdoor generalizes at the token feature level rather than the structural pattern level: a model trained on one RFC reference activates on any RFC reference but does not transfer to structurally identical ISO, OWASP, CWE, or NIST citations. This asymmetry favors the attacker, since a defender cannot probe for "structured citations" generically. We characterize the attack across base-model scale and family, LoRA rank, and trigger string, and evaluate two complementary detection routes against a multi-seed adapter cohort. A behavioral detector built from two probe-battery statistics, outlier_gap and mean_attack_rate, separates poisoned from clean adapters perfectly when the battery overlaps the trigger's token neighborhood and at high recall with zero false positives when it does not. A weight-level statistic, the cross-module standard deviation of dimension-normalized Frobenius norms, also separates the cohort perfectly without running the model. Combined, the two routes are robust to probe composition. Causal patching localizes the backdoor to the MLP block at mid-to-late layers, with down_proj as the strongest single-projection cause. Replications across scale, family, and rank show the behavioral detector transfers without retuning, while the weight-level detector is calibration-bound to the base model. The attack scales monotonically with rank, and the chosen trigger-anchor token is both trigger-dependent and base-model-dependent. Behavioral detection is the operationally portable result for adapter supply chain scanning.