Segurança em um Único Disparo: Corrigindo LLMs Ajustados com uma Única Instância
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
Autores: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
Resumo
O ajuste fino de modelos de linguagem grandes (LLMs) alinhados com segurança pode comprometer substancialmente a sua segurança. Abordagens anteriores exigem muitas amostras de segurança ou conjuntos de calibração, o que não só incorre em sobrecarga computacional significativa durante o realinhamento, mas também leva a uma degradação perceptível na utilidade do modelo. Contrariamente a esta crença, demonstramos que o alinhamento de segurança pode ser totalmente recuperado com apenas um único exemplo de segurança, sem sacrificar a utilidade e a um custo mínimo. Notavelmente, esta recuperação é eficaz independentemente do número de exemplos prejudiciais utilizados no ajuste fino ou do tamanho do modelo subjacente, e a convergência é alcançada em apenas algumas épocas. Além disso, descobrimos a estrutura de baixo posto do gradiente de segurança, o que explica por que tal correção eficiente é possível. Validamos as nossas descobertas em cinco LLMs alinhados com segurança e múltiplos conjuntos de dados, demonstrando a generalidade da nossa abordagem.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.