Alineación de Seguridad como Aprendizaje Continuo: Mitigación del Impuesto de Alineación mediante Proyección de Gradiente Ortogonal

Resumen

El post-entrenamiento de seguridad puede mejorar la nocividad y el cumplimiento de políticas de los Modelos de Lenguaje de Gran Escala (LLMs), pero también puede reducir la utilidad general, un fenómeno a menudo descrito como el coste de alineación. Estudiamos este compromiso a través del prisma del aprendizaje continuo: las etapas secuenciales de alineación exponen al modelo a distribuciones de datos y objetivos desplazados, y sus gradientes pueden interferir con las direcciones que sustentan capacidades generales adquiridas previamente. Esta visión no afirma que toda degradación de la alineación tenga una única causa; más bien, proporciona un mecanismo de primer orden útil para mitigar una fuente importante de regresión de capacidades. Proponemos Proyección de Gradiente Ortogonal para la Alineación de Seguridad (OGPSA), una regla de actualización ligera que estima un subespacio de referencia de bajo rango a partir de gradientes sobre un pequeño conjunto de datos de capacidad general y elimina del gradiente de seguridad la componente que reside en este subespacio. La actualización resultante es la dirección local de descenso más pronunciada para la seguridad, sujeta a restricciones de conservación de primer orden sobre los objetivos de referencia. OGPSA es compatible con pipelines estándar de post-entrenamiento y evita la reproducción a gran escala, aunque introduce un cómputo periódico del gradiente de referencia. En configuraciones de Ajuste Fino Supervisado (SFT), Optimización Directa de Preferencias (DPO) y secuencial SFT→DPO, OGPSA mejora el compromiso observado entre seguridad y utilidad en comparación con las líneas base estándar. Bajo el pipeline secuencial SFT→DPO, la ganancia promedio de rendimiento aumenta del 33.98% al 42.74% en Qwen2.5-7B-Instruct y del 19.74% al 32.98% en Llama3.1-8B-Instruct. Hemos publicado nuestro código como código abierto en https://github.com/SunGL001/OGPSA.

English

Safety post-training can improve the harmfulness and policy compliance of Large Language Models (LLMs), but it may also reduce general utility, a phenomenon often described as the alignment tax. We study this trade-off through the lens of continual learning: sequential alignment stages expose the model to shifted data distributions and objectives, and their gradients may interfere with directions that support previously acquired general capabilities. This view does not claim that all alignment degradation has a single cause; rather, it provides a useful first-order mechanism for mitigating one important source of capability regression. We propose Orthogonal Gradient Projection for Safety Alignment (OGPSA), a lightweight update rule that estimates a low-rank reference subspace from gradients on a small set of general-capability data and removes from each safety gradient the component lying in this subspace. The resulting update is the steepest local safety-descent direction subject to first-order preservation constraints on the reference objectives. OGPSA is compatible with standard post-training pipelines and avoids large-scale replay, although it introduces periodic reference-gradient computation. Across Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and sequential SFTrightarrowDPO settings, OGPSA improves the observed safety--utility trade-off over standard baselines. Under the sequential SFTrightarrowDPO pipeline, the average performance gain increases from 33.98\% to 42.74\% on Qwen2.5-7B-Instruct and from 19.74\% to 32.98\% on Llama3.1-8B-Instruct. We have open sourced our code at https://github.com/SunGL001/OGPSA.