ChatPaper.aiChatPaper

AlignGuard-LoRA: Ajuste Fino de Preservação de Alinhamento via Decomposição Guiada por Fisher e Regularização de Colisão Geodésica Riemanniana

AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

August 4, 2025
Autores: Amitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha
cs.AI

Resumo

A adaptação de baixo posto (LoRA) tornou-se uma ferramenta padrão para o ajuste fino eficiente de grandes modelos de linguagem (LLMs). No entanto, até mesmo pequenas atualizações LoRA podem induzir desvio de alinhamento, enfraquecendo restrições de segurança e comportamentais por meio de mudanças entrelaçadas nos parâmetros. Para abordar isso, propomos o AlignGuard-LoRA (AGL), uma estrutura fundamentada para preservar o alinhamento durante o ajuste fino. O AGL introduz vários componentes-chave: uma função de perda da tarefa principal para supervisão, regularização baseada na Matriz de Informação de Fisher para restringir atualizações em subespaços sensíveis ao alinhamento, e regularização específica da tarefa para estabilizar a integração de novos conhecimentos. Além disso, introduzimos a regularização consciente de colisão, combinando sobreposição Riemanniana -- que penaliza interferências coordenada a coordenada -- e separação geodésica -- que incentiva geometrias de atualização disjuntas. Criamos o DriftCaps, um benchmark diagnóstico direcionado de prompts seguros e inseguros projetado para quantificar o desvio de alinhamento e a degradação da segurança. Avaliações empíricas mostram que o AGL mitiga o desvio de alinhamento em até 50% em benchmarks críticos para segurança sem degradar o desempenho da tarefa subsequente. Uma ablação abrangente confirma que cada componente contribui distintamente para preservar comportamentos de segurança latentes. Por fim, derivamos e validamos uma lei de escala para o esquecimento catastrófico, revelando que o AGL aplaina a escalada de perda pós-ajuste fino enquanto preserva a dinâmica de adaptação. O AGL é um refinamento estruturalmente fundamentado do LoRA, garantindo a preservação do alinhamento com trocas mínimas. Para incentivar maior exploração e desenvolvimento, disponibilizamos nossa implementação em código aberto.
English
Low-rank adaptation (LoRA) has become a standard tool for efficiently fine-tuning large language models (LLMs). Yet, even minor LoRA updates can induce alignment drift, weakening safety and behavioral constraints through entangled parameter changes. To address this, we propose AlignGuard-LoRA (AGL), a principled framework for preserving alignment during finetuning. AGL introduces several key components: a primary task loss for supervision, Fisher Information Matrix-based regularization to restrict updates in alignment-sensitive subspaces, and task-specific regularization to stabilize the integration of new knowledge. We further introduce collision-aware regularization, blending Riemannian overlap -- which penalizes coordinate-wise interference -- and geodesic separation -- which encourages disjoint update geometry. We curate DriftCaps, a targeted diagnostic benchmark of safe and unsafe prompts designed to quantify alignment drift and safety degradation. Empirical evaluations show that AGL mitigates alignment drift by up to 50% on safety-critical benchmarks without degrading downstream task performance. Comprehensive ablation confirms that each component contributes distinctly to preserving latent safety behaviors. Finally, we derive and validate a scaling law for catastrophic forgetting, revealing that AGL flattens post-finetuning loss escalation while preserving adaptation dynamics. AGL is a structurally grounded refinement of LoRA, ensuring alignment preservation with minimal trade-offs. To encourage further exploration and development, we open-source our implementation.
PDF22August 6, 2025