Alignement de sécurité en tant qu'apprentissage continu : atténuer la taxe d'alignement par projection orthogonale du gradient

Résumé

Le post-entraînement à la sécurité peut améliorer la nocivité et la conformité aux politiques des grands modèles de langage (LLMs), mais peut également réduire l'utilité générale, un phénomène souvent décrit comme la taxe d'alignement. Nous étudions ce compromis sous l'angle de l'apprentissage continu : les étapes d'alignement séquentielles exposent le modèle à des distributions de données et des objectifs décalés, et leurs gradients peuvent interférer avec les directions qui soutiennent des capacités générales précédemment acquises. Cette perspective ne prétend pas que toute dégradation liée à l'alignement ait une cause unique ; elle fournit plutôt un mécanisme de premier ordre utile pour atténuer une source importante de régression des capacités. Nous proposons la Projection de Gradient Orthogonal pour l’Alignement de Sécurité (OGPSA), une règle de mise à jour légère qui estime un sous-espace de référence de faible rang à partir des gradients sur un petit ensemble de données de capacités générales et supprime de chaque gradient de sécurité la composante située dans ce sous-espace. La mise à jour résultante est la direction de descente locale de sécurité la plus raide, soumise à des contraintes de préservation du premier ordre sur les objectifs de référence. OGPSA est compatible avec les pipelines standard de post-entraînement et évite la relecture à grande échelle, bien qu'elle introduise un calcul périodique des gradients de référence. À travers les configurations de Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) et SFT→DPO séquentielle, OGPSA améliore le compromis observé entre sécurité et utilité par rapport aux références standards. Sous le pipeline SFT→DPO séquentiel, le gain de performance moyen passe de 33,98 % à 42,74 % sur Qwen2.5-7B-Instruct et de 19,74 % à 32,98 % sur Llama3.1-8B-Instruct. Nous avons rendu notre code open source à l'adresse https://github.com/SunGL001/OGPSA.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.