AlignGuard-LoRA: フィッシャー情報量に基づく分解とリーマン幾何学的測地線衝突正則化による整合性保持ファインチューニング

要旨

低ランク適応（LoRA）は、大規模言語モデル（LLM）の効率的なファインチューニングにおける標準的なツールとなっています。しかし、わずかなLoRAの更新でも、絡み合ったパラメータ変化を通じてアライメントのずれを引き起こし、安全性や行動制約を弱める可能性があります。この問題に対処するため、我々はAlignGuard-LoRA（AGL）を提案します。AGLは、ファインチューニング中にアライメントを維持するための原則に基づいたフレームワークです。AGLは、いくつかの主要なコンポーネントを導入しています：監督のための主要タスク損失、アライメントに敏感な部分空間での更新を制限するためのフィッシャー情報行列に基づく正則化、および新しい知識の統合を安定化するためのタスク固有の正則化です。さらに、衝突を意識した正則化を導入し、座標ごとの干渉を罰するリーマン重なりと、互いに独立した更新幾何学を促進する測地的分離を組み合わせています。我々は、アライメントのずれと安全性の低下を定量化するために設計された、安全および不安全なプロンプトを対象とした診断ベンチマークであるDriftCapsを策定しました。実証評価により、AGLが安全性が重要なベンチマークにおいてアライメントのずれを最大50％軽減し、下流タスクの性能を低下させないことが示されています。包括的なアブレーション研究により、各コンポーネントが潜在的な安全行動を維持するために独自に貢献していることが確認されました。最後に、我々は破滅的な忘却のスケーリング則を導出し検証し、AGLが適応ダイナミクスを維持しながらファインチューニング後の損失の急増を平坦化することを明らかにしました。AGLは、LoRAの構造的に基づいた改良であり、最小限のトレードオフでアライメントの維持を保証します。さらなる探求と開発を促進するため、我々は実装をオープンソースとして公開します。

English

Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.

AlignGuard-LoRA: フィッシャー情報量に基づく分解とリーマン幾何学的測地線衝突正則化による整合性保持ファインチューニング

AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

要旨

Support