AlignGuard-LoRA: Uitlijning-behoudende Fine-Tuning via Fisher-geleide Ontbinding en Riemanniaans-Geodetische Botsingsregularisatie

Samenvatting

Low-rank adaptation (LoRA) is uitgegroeid tot een standaardtool voor het efficiënt finetunen van grote taalmodellen (LLMs). Toch kunnen zelfs kleine LoRA-updates leiden tot alignment drift, waarbij veiligheids- en gedragsbeperkingen verzwakken door verstrengelde parameterwijzigingen. Om dit aan te pakken, stellen we AlignGuard-LoRA (AGL) voor, een principieel framework voor het behouden van alignment tijdens het finetunen. AGL introduceert verschillende cruciale componenten: een primaire taakverliesfunctie voor supervisie, regularisatie op basis van de Fisher Information Matrix om updates in alignment-gevoelige deelruimten te beperken, en taakspecifieke regularisatie om de integratie van nieuwe kennis te stabiliseren. We introduceren verder collision-aware regularisatie, een combinatie van Riemanniaanse overlap – die coördinaat-gewijze interferentie bestraft – en geodetische scheiding – die een gescheiden update-geometrie bevordert. We hebben DriftCaps samengesteld, een gerichte diagnostische benchmark van veilige en onveilige prompts ontworpen om alignment drift en veiligheidsdegradatie te kwantificeren. Empirische evaluaties tonen aan dat AGL alignment drift met tot wel 50% vermindert op veiligheidskritieke benchmarks zonder de prestaties van downstream taken te verslechteren. Uitgebreide ablatie bevestigt dat elke component een duidelijk aandeel heeft in het behouden van latente veiligheidsgedragingen. Ten slotte leiden we een schaalwet voor catastrofaal vergeten af en valideren deze, waaruit blijkt dat AGL de escalatie van verlies na finetunen afvlakt terwijl de aanpassingsdynamiek behouden blijft. AGL is een structureel onderbouwde verfijning van LoRA, die alignment behoudt met minimale compromissen. Om verder onderzoek en ontwikkeling aan te moedigen, maken we onze implementatie open-source.

English

Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.

AlignGuard-LoRA: Uitlijning-behoudende Fine-Tuning via Fisher-geleide Ontbinding en Riemanniaans-Geodetische Botsingsregularisatie

AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Samenvatting

Support