ChatPaper.aiChatPaper

AlignGuard-LoRA: Ottimizzazione Fine Preservante l'Allineamento tramite Decomposizione Guidata da Fisher e Regolarizzazione delle Collisioni Geodetiche Riemanniane

AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

August 4, 2025
Autori: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI

Abstract

L'adattamento a basso rango (LoRA) è diventato uno strumento standard per il fine-tuning efficiente di grandi modelli linguistici (LLM). Tuttavia, anche aggiornamenti minori di LoRA possono indurre una deriva dell'allineamento, indebolendo i vincoli di sicurezza e comportamentali attraverso cambiamenti intrecciati dei parametri. Per affrontare questo problema, proponiamo AlignGuard-LoRA (AGL), un framework strutturato per preservare l'allineamento durante il fine-tuning. AGL introduce diversi componenti chiave: una funzione di perdita primaria per la supervisione, una regolarizzazione basata sulla Matrice di Informazione di Fisher per limitare gli aggiornamenti nei sottospazi sensibili all'allineamento, e una regolarizzazione specifica per il compito per stabilizzare l'integrazione di nuove conoscenze. Introduciamo inoltre una regolarizzazione consapevole delle collisioni, che combina l'overlap riemanniano -- che penalizza l'interferenza coordinata -- e la separazione geodetica -- che incoraggia una geometria di aggiornamento disgiunta. Abbiamo curato DriftCaps, un benchmark diagnostico mirato di prompt sicuri e non sicuri progettato per quantificare la deriva dell'allineamento e il degrado della sicurezza. Le valutazioni empiriche dimostrano che AGL mitiga la deriva dell'allineamento fino al 50% su benchmark critici per la sicurezza senza compromettere le prestazioni delle attività downstream. Un'ablazione completa conferma che ogni componente contribuisce in modo distinto alla preservazione dei comportamenti di sicurezza latenti. Infine, deriviamo e validiamo una legge di scala per la dimenticanza catastrofica, rivelando che AGL appiattisce l'escalation della perdita post-fine-tuning preservando le dinamiche di adattamento. AGL è un perfezionamento strutturalmente fondato di LoRA, che garantisce la preservazione dell'allineamento con compromessi minimi. Per incoraggiare ulteriori esplorazioni e sviluppi, rendiamo disponibile il nostro codice in open-source.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.
PDF22August 6, 2025