AlignGuard-LoRA: Ajuste Fino que Preserva la Alineación mediante Descomposición Guiada por Fisher y Regularización de Colisión Geodésica Riemanniana

Resumen

La adaptación de bajo rango (LoRA) se ha convertido en una herramienta estándar para el ajuste fino eficiente de modelos de lenguaje grandes (LLMs). Sin embargo, incluso actualizaciones menores de LoRA pueden inducir una deriva de alineación, debilitando las restricciones de seguridad y comportamiento a través de cambios entrelazados en los parámetros. Para abordar esto, proponemos AlignGuard-LoRA (AGL), un marco fundamentado para preservar la alineación durante el ajuste fino. AGL introduce varios componentes clave: una pérdida de tarea principal para supervisión, regularización basada en la Matriz de Información de Fisher para restringir actualizaciones en subespacios sensibles a la alineación, y regularización específica de la tarea para estabilizar la integración de nuevo conocimiento. Además, introducimos regularización consciente de colisiones, combinando superposición riemanniana -- que penaliza la interferencia coordenada por coordenada -- y separación geodésica -- que fomenta una geometría de actualización disjunta. Curatoriamos DriftCaps, un punto de referencia diagnóstico específico de indicaciones seguras e inseguras diseñado para cuantificar la deriva de alineación y la degradación de la seguridad. Las evaluaciones empíricas muestran que AGL mitiga la deriva de alineación hasta en un 50% en puntos de referencia críticos para la seguridad sin degradar el rendimiento en tareas posteriores. Una ablación exhaustiva confirma que cada componente contribuye de manera distintiva a preservar los comportamientos de seguridad latentes. Finalmente, derivamos y validamos una ley de escalamiento para el olvido catastrófico, revelando que AGL aplana la escalada de pérdida post-ajuste fino mientras preserva la dinámica de adaptación. AGL es un refinamiento estructuralmente fundamentado de LoRA, asegurando la preservación de la alineación con compensaciones mínimas. Para fomentar una mayor exploración y desarrollo, liberamos nuestra implementación como código abierto.

English

Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.

AlignGuard-LoRA: Ajuste Fino que Preserva la Alineación mediante Descomposición Guiada por Fisher y Regularización de Colisión Geodésica Riemanniana

AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Resumen

Support