AlignGuard-LoRA : Réglage fin préservant l'alignement via une décomposition guidée par Fisher et une régularisation des collisions géodésiques riemanniennes
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
papers.authors: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
papers.abstract
L'adaptation à faible rang (LoRA) est devenue un outil standard pour le réglage fin efficace des grands modèles de langage (LLM). Cependant, même des mises à jour mineures de LoRA peuvent induire une dérive d'alignement, affaiblissant les contraintes de sécurité et de comportement par des modifications de paramètres entrelacées. Pour résoudre ce problème, nous proposons AlignGuard-LoRA (AGL), un cadre méthodologique pour préserver l'alignement lors du réglage fin. AGL introduit plusieurs composants clés : une fonction de perte principale pour la supervision, une régularisation basée sur la matrice d'information de Fisher pour limiter les mises à jour dans les sous-espaces sensibles à l'alignement, et une régularisation spécifique à la tâche pour stabiliser l'intégration de nouvelles connaissances. Nous introduisons également une régularisation consciente des collisions, combinant le chevauchement riemannien -- qui pénalise les interférences coordonnée par coordonnée -- et la séparation géodésique -- qui encourage une géométrie de mise à jour disjointe. Nous avons conçu DriftCaps, un benchmark de diagnostic ciblé composé de prompts sûrs et non sûrs, conçu pour quantifier la dérive d'alignement et la dégradation de la sécurité. Les évaluations empiriques montrent qu'AGL réduit la dérive d'alignement jusqu'à 50 % sur des benchmarks critiques pour la sécurité sans dégrader les performances des tâches en aval. Une ablation complète confirme que chaque composant contribue distinctement à la préservation des comportements de sécurité latents. Enfin, nous dérivons et validons une loi d'échelle pour l'oubli catastrophique, révélant qu'AGL aplanit l'escalade de la perte post-réglage fin tout en préservant la dynamique d'adaptation. AGL est un raffinement structurellement fondé de LoRA, garantissant la préservation de l'alignement avec des compromis minimaux. Pour encourager l'exploration et le développement ultérieurs, nous rendons notre implémentation open-source.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.