AlignGuard-LoRA: Ausrichtungsbewahrende Feinabstimmung durch Fisher-geführte Zerlegung und Riemann-Geodätische Kollisionsregularisierung
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
papers.authors: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
papers.abstract
Low-Rank-Adaptation (LoRA) hat sich zu einem Standardwerkzeug für die effiziente Feinabstimmung großer Sprachmodelle (LLMs) entwickelt. Doch selbst geringfügige LoRA-Updates können eine Ausrichtungsdrift verursachen, die Sicherheits- und Verhaltensbeschränkungen durch verflochtene Parameteränderungen schwächt. Um dies zu adressieren, schlagen wir AlignGuard-LoRA (AGL) vor, ein prinzipielles Framework zur Bewahrung der Ausrichtung während der Feinabstimmung. AGL führt mehrere Schlüsselkomponenten ein: einen primären Aufgabenverlust zur Überwachung, eine Regularisierung basierend auf der Fisher-Informationsmatrix, um Updates in ausrichtungsempfindlichen Unterräumen einzuschränken, und aufgaben spezifische Regularisierung, um die Integration neuen Wissens zu stabilisieren. Weiterhin führen wir kollisionsbewusste Regularisierung ein, die Riemannsche Überlappung – welche koordinatenweise Interferenzen bestraft – und geodätische Trennung – welche disjunkte Update-Geometrie fördert – kombiniert. Wir stellen DriftCaps vor, einen gezielten diagnostischen Benchmark aus sicheren und unsicheren Prompts, der entwickelt wurde, um Ausrichtungsdrift und Sicherheitsverschlechterung zu quantifizieren. Empirische Auswertungen zeigen, dass AGL die Ausrichtungsdrift auf sicherheitskritischen Benchmarks um bis zu 50 % reduziert, ohne die Leistung bei nachgelagerten Aufgaben zu beeinträchtigen. Umfassende Ablation bestätigt, dass jede Komponente eindeutig zur Bewahrung latenter Sicherheitsverhaltensweisen beiträgt. Schließlich leiten wir ein Skalierungsgesetz für katastrophales Vergessen ab und validieren es, das zeigt, dass AGL den Anstieg des Verlusts nach der Feinabstimmung abflacht, während die Anpassungsdynamik erhalten bleibt. AGL ist eine strukturell fundierte Verfeinerung von LoRA, die die Bewahrung der Ausrichtung mit minimalen Kompromissen sicherstellt. Um weitere Erkundungen und Entwicklungen zu fördern, stellen wir unsere Implementierung als Open-Source zur Verfügung.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.