Seguridad en una sola toma: Parcheado de LLMs afinados con una única instancia
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
Autores: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
Resumen
El ajuste fino de modelos de lenguaje grandes (LLM) alineados con la seguridad puede comprometer sustancialmente su seguridad. Los enfoques anteriores requieren muchas muestras de seguridad o conjuntos de calibración, lo que no solo genera una sobrecarga computacional significativa durante el realineamiento, sino que también provoca una degradación notable en la utilidad del modelo. Contrario a esta creencia, demostramos que la alineación de seguridad puede recuperarse completamente con solo un único ejemplo de seguridad, sin sacrificar la utilidad y a un costo mínimo. Notablemente, esta recuperación es efectiva independientemente del número de ejemplos dañinos utilizados en el ajuste fino o del tamaño del modelo subyacente, y la convergencia se logra en solo unas pocas épocas. Además, descubrimos la estructura de bajo rango del gradiente de seguridad, lo que explica por qué es posible una corrección tan eficiente. Validamos nuestros hallazgos en cinco LLM alineados con la seguridad y múltiples conjuntos de datos, demostrando la generalidad de nuestro enfoque.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.