AlignGuard-LoRA: Ajuste Fino que Preserva la Alineación mediante Descomposición Guiada por Fisher y Regularización de Colisión Geodésica Riemanniana
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
Autores: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
Resumen
La adaptación de bajo rango (LoRA) se ha convertido en una herramienta estándar para el ajuste fino eficiente de modelos de lenguaje grandes (LLMs). Sin embargo, incluso actualizaciones menores de LoRA pueden inducir una deriva de alineación, debilitando las restricciones de seguridad y comportamiento a través de cambios entrelazados en los parámetros. Para abordar esto, proponemos AlignGuard-LoRA (AGL), un marco fundamentado para preservar la alineación durante el ajuste fino. AGL introduce varios componentes clave: una pérdida de tarea principal para supervisión, regularización basada en la Matriz de Información de Fisher para restringir actualizaciones en subespacios sensibles a la alineación, y regularización específica de la tarea para estabilizar la integración de nuevo conocimiento. Además, introducimos regularización consciente de colisiones, combinando superposición riemanniana -- que penaliza la interferencia coordenada por coordenada -- y separación geodésica -- que fomenta una geometría de actualización disjunta. Curatoriamos DriftCaps, un punto de referencia diagnóstico específico de indicaciones seguras e inseguras diseñado para cuantificar la deriva de alineación y la degradación de la seguridad. Las evaluaciones empíricas muestran que AGL mitiga la deriva de alineación hasta en un 50% en puntos de referencia críticos para la seguridad sin degradar el rendimiento en tareas posteriores. Una ablación exhaustiva confirma que cada componente contribuye de manera distintiva a preservar los comportamientos de seguridad latentes. Finalmente, derivamos y validamos una ley de escalamiento para el olvido catastrófico, revelando que AGL aplana la escalada de pérdida post-ajuste fino mientras preserva la dinámica de adaptación. AGL es un refinamiento estructuralmente fundamentado de LoRA, asegurando la preservación de la alineación con compensaciones mínimas. Para fomentar una mayor exploración y desarrollo, liberamos nuestra implementación como código abierto.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.