Согласование безопасности как непрерывное обучение: смягчение налога на согласование с помощью ортогональной проекции градиента

Аннотация

Посттренировочное согласование безопасности может улучшить безвредность и соответствие политикам больших языковых моделей (Large Language Models, LLMs), но также способно снизить общую полезность — явление, часто описываемое как налог на согласование. Мы изучаем этот компромисс через призму постоянного обучения: последовательные этапы согласования подвергают модель смещённым распределениям данных и целям, а их градиенты могут interfere с направлениями, поддерживающими ранее приобретённые общие способности. Данный подход не утверждает, что вся деградация согласования имеет единую причину; скорее, он предлагает полезный механизм первого порядка для смягчения одного важного источника регрессии возможностей. Мы предлагаем ортогональное проектирование градиентов для безопасного согласования (Orthogonal Gradient Projection for Safety Alignment, OGPSA) — лёгкое правило обновления, которое оценивает низкоранговое референтное подпространство на основе градиентов небольшого набора данных с общими способностями и удаляет из каждого градиента безопасности компоненту, лежащую в этом подпространстве. Полученное обновление является крутейшим локальным направлением спуска по безопасности при соблюдении ограничений сохранения первого порядка в отношении целей референтного набора. OGPSA совместим со стандартными конвейерами посттренировки и не требует крупномасштабного воспроизведения, хотя и вводит периодические вычисления референтных градиентов. В контекстах контролируемой точной настройки (Supervised Fine-Tuning, SFT), прямой оптимизации предпочтений (Direct Preference Optimization, DPO) и последовательного применения SFT→DPO OGPSA улучшает наблюдаемый компромисс между безопасностью и полезностью по сравнению со стандартными базовыми методами. В конвейере последовательного SFT→DPO средний прирост производительности увеличивается с 33,98% до 42,74% для Qwen2.5-7B-Instruct и с 19,74% до 32,98% для Llama3.1-8B-Instruct. Мы открыли исходный код по адресу https://github.com/SunGL001/OGPSA.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.