Alinhamento de Segurança como Aprendizado Contínuo: Mitigando a Taxa de Alinhamento via Projeção de Gradiente Ortogonal

Resumo

O pós-treinamento de segurança pode melhorar a nocividade e a conformidade com políticas dos Modelos de Linguagem de Grande Escala (LLMs), mas também pode reduzir a utilidade geral, um fenômeno frequentemente descrito como o imposto de alinhamento. Estudamos essa troca através da lente do aprendizado contínuo: estágios sequenciais de alinhamento expõem o modelo a distribuições de dados e objetivos deslocados, e seus gradientes podem interferir com direções que suportam capacidades gerais previamente adquiridas. Essa visão não afirma que toda degradação de alinhamento tem uma única causa; em vez disso, fornece um mecanismo de primeira ordem útil para mitigar uma fonte importante de regressão de capacidade. Propusemos a Projeção Ortogonal de Gradientes para Alinhamento de Segurança (OGPSA), uma regra de atualização leve que estima um subespaço de referência de baixo posto a partir de gradientes em um pequeno conjunto de dados de capacidade geral e remove de cada gradiente de segurança o componente situado nesse subespaço. A atualização resultante é a direção de descida de segurança local mais íngreme, sujeita a restrições de preservação de primeira ordem nos objetivos de referência. OGPSA é compatível com pipelines padrão de pós-treinamento e evita replay em larga escala, embora introduza o cálculo periódico de gradientes de referência. Em configurações de Ajuste Fino Supervisionado (SFT), Otimização Direta de Preferências (DPO) e SFT→DPO sequencial, OGPSA melhora a troca observada entre segurança e utilidade em relação às linhas de base padrão. Sob o pipeline sequencial SFT→DPO, o ganho médio de desempenho aumenta de 33,98% para 42,74% no Qwen2.5-7B-Instruct e de 19,74% para 32,98% no Llama3.1-8B-Instruct. Disponibilizamos nosso código como código aberto em https://github.com/SunGL001/OGPSA.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.