Safety Alignment als kontinuierliches Lernen: Abschwächung des Alignment Tax mittels orthogonaler Gradientenprojektion

Zusammenfassung

Sicherheitsnachtraining kann die Schädlichkeit und Richtlinienkonformität großer Sprachmodelle (Large Language Models, LLMs) verbessern, aber es kann auch die allgemeine Nützlichkeit verringern – ein Phänomen, das oft als Alignment Tax bezeichnet wird. Wir untersuchen diesen Zielkonflikt durch die Linse des kontinuierlichen Lernens: Sequentielle Ausrichtungsstufen setzen das Modell verschobenen Datenverteilungen und Zielen aus, und ihre Gradienten können mit Richtungen interferieren, die zuvor erworbene allgemeine Fähigkeiten unterstützen. Diese Sichtweise behauptet nicht, dass jede Verschlechterung durch Alignment eine einzige Ursache hat; vielmehr bietet sie einen nützlichen Mechanismus erster Ordnung, um eine wichtige Quelle von Fähigkeitsrückgängen abzumildern. Wir schlagen Orthogonal Gradient Projection for Safety Alignment (OGPSA) vor, eine leichtgewichtige Aktualisierungsregel, die einen niedrigdimensionalen Referenzunterraum aus Gradienten auf einer kleinen Menge von Daten allgemeiner Fähigkeiten schätzt und aus jedem Sicherheitsgradienten die Komponente entfernt, die in diesem Unterraum liegt. Die resultierende Aktualisierung ist die steilste lokale Sicherheitsabstiegsrichtung unter Erhaltungsbedingungen erster Ordnung für die Referenzziele. OGPSA ist mit Standard-Post-Training-Pipelines kompatibel und vermeidet groß angelegtes Replay, führt jedoch eine periodische Berechnung von Referenzgradienten ein. In den Einstellungen Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und sequenzielles SFT→DPO verbessert OGPSA den beobachteten Zielkonflikt zwischen Sicherheit und Nutzen im Vergleich zu Standard-Baselines. Unter der sequentiellen SFT→DPO-Pipeline steigt die durchschnittliche Leistungssteigerung von 33,98 % auf 42,74 % bei Qwen2.5-7B-Instruct und von 19,74 % auf 32,98 % bei Llama3.1-8B-Instruct. Wir haben unseren Code unter https://github.com/SunGL001/OGPSA als Open Source veröffentlicht.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.