Sécurité en un coup : Corriger les LLM affinés avec une seule instance
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
papers.authors: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
papers.abstract
Le réajustement des grands modèles de langage (LLM) alignés sur la sécurité peut considérablement compromettre leur sûreté. Les approches antérieures nécessitent de nombreux échantillons de sécurité ou ensembles d'étalonnage, ce qui entraîne non seulement une surcharge computationnelle importante lors du réalignement, mais aussi une dégradation notable de l'utilité du modèle. Contrairement à cette idée reçue, nous démontrons que l'alignement de sécurité peut être entièrement rétabli avec un seul exemple de sécurité, sans sacrifier l'utilité du modèle et à un coût minime. Fait remarquable, cette récupération est efficace quel que soit le nombre d'exemples nuisibles utilisés lors du réajustement ou la taille du modèle sous-jacent, et la convergence est atteinte en seulement quelques époques. De plus, nous mettons en évidence la structure de bas rang du gradient de sécurité, ce qui explique pourquoi une correction aussi efficace est possible. Nous validons nos résultats sur cinq LLM alignés sur la sécurité et plusieurs jeux de données, démontrant la généralité de notre approche.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.