AlignGuard-LoRA: Сохранение выравнивания при тонкой настройке с использованием разложения, управляемого критерием Фишера, и регуляризации столкновений на основе римановой геодезической
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization
August 4, 2025
Авторы: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI
Аннотация
Низкоранговая адаптация (LoRA) стала стандартным инструментом для эффективной тонкой настройки больших языковых моделей (LLM). Однако даже незначительные обновления LoRA могут вызывать смещение выравнивания, ослабляя ограничения безопасности и поведения из-за запутанных изменений параметров. Для решения этой проблемы мы предлагаем AlignGuard-LoRA (AGL), принципиальную структуру для сохранения выравнивания во время тонкой настройки. AGL включает несколько ключевых компонентов: основную функцию потерь для контроля, регуляризацию на основе матрицы информации Фишера для ограничения обновлений в чувствительных к выравниванию подпространствах, и задачно-специфическую регуляризацию для стабилизации интеграции новых знаний. Мы также вводим регуляризацию с учетом коллизий, сочетающую риманово перекрытие — которое штрафует координатные помехи — и геодезическое разделение — которое способствует непересекающейся геометрии обновлений. Мы создали DriftCaps, целевой диагностический набор безопасных и небезопасных запросов, предназначенный для количественной оценки смещения выравнивания и ухудшения безопасности. Эмпирические оценки показывают, что AGL снижает смещение выравнивания до 50% на критически важных для безопасности тестах без ухудшения производительности на целевых задачах. Комплексный анализ подтверждает, что каждый компонент вносит уникальный вклад в сохранение скрытых безопасных поведений. Наконец, мы выводим и проверяем закон масштабирования для катастрофического забывания, показывая, что AGL сглаживает рост потерь после тонкой настройки, сохраняя динамику адаптации. AGL представляет собой структурно обоснованное усовершенствование LoRA, обеспечивающее сохранение выравнивания с минимальными компромиссами. Для поощрения дальнейших исследований и разработок мы открываем исходный код нашей реализации.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently
fine-tuning large language models (LLMs). Yet, even minor LoRA updates can
induce alignment drift, weakening safety and behavioral constraints through
entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL),
a principled framework for preserving alignment during finetuning. AGL
introduces several key components: a primary task loss for supervision, Fisher
Information Matrix-based regularization to restrict updates in
alignment-sensitive subspaces, and task-specific regularization to stabilize
the integration of new knowledge. We further introduce collision-aware
regularization, blending Riemannian overlap -- which penalizes coordinate-wise
interference -- and geodesic separation -- which encourages disjoint update
geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and
unsafe prompts designed to quantify alignment drift and safety degradation.
Empirical evaluations show that AGL mitigates alignment drift by up to 50% on
safety-critical benchmarks without degrading downstream task performance.
Comprehensive ablation confirms that each component contributes distinctly to
preserving latent safety behaviors. Finally, we derive and validate a scaling
law for catastrophic forgetting, revealing that AGL flattens post-finetuning
loss escalation while preserving adaptation dynamics. AGL is a structurally
grounded refinement of LoRA, ensuring alignment preservation with minimal
trade-offs. To encourage further exploration and development, we open-source
our implementation.