AlignGuard-LoRA: 피셔 가이드 분해와 리만-측지 충돌 정규화를 통한 정렬 보존 미세 조정
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
저자: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
초록
저순위 적응(LoRA)은 대규모 언어 모델(LLM)을 효율적으로 미세 조정하기 위한 표준 도구로 자리 잡았습니다. 그러나 사소한 LoRA 업데이트조차도 얽힌 매개변수 변화를 통해 정렬 드리프트(alignment drift)를 유발하여 안전성과 행동 제약을 약화시킬 수 있습니다. 이를 해결하기 위해, 우리는 미세 조정 중 정렬을 보존하기 위한 원칙적인 프레임워크인 AlignGuard-LoRA(AGL)를 제안합니다. AGL은 감독을 위한 주요 작업 손실, 정렬에 민감한 부분 공간에서의 업데이트를 제한하기 위한 피셔 정보 행렬(Fisher Information Matrix) 기반 정규화, 그리고 새로운 지식의 통합을 안정화하기 위한 작업 특화 정규화 등 여러 핵심 구성 요소를 도입합니다. 또한, 우리는 좌표 간 간섭을 억제하는 리만 중첩(Riemannian overlap)과 분리된 업데이트 기하학을 장려하는 측지 분리(geodesic separation)를 결합한 충돌 인식 정규화(collision-aware regularization)를 소개합니다. 우리는 정렬 드리프트와 안전성 저하를 정량화하기 위해 안전한 프롬프트와 안전하지 않은 프롬프트로 구성된 표적 진단 벤치마크인 DriftCaps를 구축했습니다. 실험 평가 결과, AGL은 하위 작업 성능 저하 없이 안전 관련 벤치마크에서 정렬 드리프트를 최대 50%까지 완화하는 것으로 나타났습니다. 포괄적인 어블레이션(ablation) 연구를 통해 각 구성 요소가 잠재적 안전 행동 보존에 독자적으로 기여함을 확인했습니다. 마지막으로, 우리는 치명적 망각(catastrophic forgetting)에 대한 스케일링 법칙을 도출하고 검증하여, AGL이 적응 역학을 보존하면서 미세 조정 후 손실 상승을 완화함을 보여줍니다. AGL은 LoRA의 구조적으로 근거를 둔 개선으로, 최소한의 트레이드오프로 정렬 보존을 보장합니다. 추가 탐구와 개발을 장려하기 위해 우리는 구현을 오픈소스로 공개합니다.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.