AlignGuard-LoRA: Uitlijning-behoudende Fine-Tuning via Fisher-geleide Ontbinding en Riemanniaans-Geodetische Botsingsregularisatie
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
Auteurs: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
Samenvatting
Low-rank adaptation (LoRA) is uitgegroeid tot een standaardtool voor het efficiënt finetunen van grote taalmodellen (LLMs). Toch kunnen zelfs kleine LoRA-updates leiden tot alignment drift, waarbij veiligheids- en gedragsbeperkingen verzwakken door verstrengelde parameterwijzigingen. Om dit aan te pakken, stellen we AlignGuard-LoRA (AGL) voor, een principieel framework voor het behouden van alignment tijdens het finetunen. AGL introduceert verschillende cruciale componenten: een primaire taakverliesfunctie voor supervisie, regularisatie op basis van de Fisher Information Matrix om updates in alignment-gevoelige deelruimten te beperken, en taakspecifieke regularisatie om de integratie van nieuwe kennis te stabiliseren. We introduceren verder collision-aware regularisatie, een combinatie van Riemanniaanse overlap – die coördinaat-gewijze interferentie bestraft – en geodetische scheiding – die een gescheiden update-geometrie bevordert. We hebben DriftCaps samengesteld, een gerichte diagnostische benchmark van veilige en onveilige prompts ontworpen om alignment drift en veiligheidsdegradatie te kwantificeren. Empirische evaluaties tonen aan dat AGL alignment drift met tot wel 50% vermindert op veiligheidskritieke benchmarks zonder de prestaties van downstream taken te verslechteren. Uitgebreide ablatie bevestigt dat elke component een duidelijk aandeel heeft in het behouden van latente veiligheidsgedragingen. Ten slotte leiden we een schaalwet voor catastrofaal vergeten af en valideren deze, waaruit blijkt dat AGL de escalatie van verlies na finetunen afvlakt terwijl de aanpassingsdynamiek behouden blijft. AGL is een structureel onderbouwde verfijning van LoRA, die alignment behoudt met minimale compromissen. Om verder onderzoek en ontwikkeling aan te moedigen, maken we onze implementatie open-source.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.