Veiligheidsafstemming als continu leren: Het verminderen van de afstemmingstax via orthogonale gradiëntprojectie

Samenvatting

Veiligheids-natraining kan de schadelijkheid en beleidsnaleving van Grote Taalmodellen (GTM's) verbeteren, maar het kan ook de algemene bruikbaarheid verminderen, een fenomeen dat vaak wordt omschreven als de afstemmingsbelasting. We bestuderen deze afweging door de lens van continu leren: opeenvolgende afstemmingsfasen stellen het model bloot aan verschoven gegevensdistributies en doelstellingen, en hun gradiënten kunnen interfereren met richtingen die eerder verworven algemene capaciteiten ondersteunen. Deze opvatting beweert niet dat alle afstemmingsdegradatie één enkele oorzaak heeft; het biedt veeleer een nuttig eerste-orde mechanisme voor het beperken van een belangrijke bron van capaciteitsregressie. We stellen Orthogonale Gradiëntprojectie voor Veiligheidsafstemming (OGPSA) voor, een lichtgewicht updateregel die een laagrankige referentie-subruimte schat uit gradiënten op een kleine set gegevens van algemene capaciteiten en uit elke veiligheidsgradiënt de component verwijdert die in deze subruimte ligt. De resulterende update is de steilste lokale veiligheidsafdalingsrichting, onderhevig aan eerste-orde behoudsbeperkingen op de referentiedoelstellingen. OGPSA is compatibel met standaard natrainingspijplijnen en vermijdt grootschalige herhaling, hoewel het periodieke referentiegradiëntberekening introduceert. In zowel Gesuperviseerd Fijnafstemmen (SFT), Directe Preferentieoptimalisatie (DPO) als opeenvolgende SFT→DPO-instellingen verbetert OGPSA de waargenomen veiligheid–bruikbaarheidsafweging ten opzichte van standaardbaselines. Onder de opeenvolgende SFT→DPO-pijplijn stijgt de gemiddelde prestatieverbetering van 33,98% naar 42,74% op Qwen2.5-7B-Instruct en van 19,74% naar 32,98% op Llama3.1-8B-Instruct. We hebben onze code open-source beschikbaar gesteld op https://github.com/SunGL001/OGPSA.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.