Sicurezza in un Colpo Solo: Correggere LLM Fine-Tuned con una Singola Istanza

Abstract

L'ottimizzazione fine di grandi modelli linguistici (LLM) allineati alla sicurezza può comprometterne sostanzialmente la protezione. Gli approcci precedenti richiedono numerosi esempi di sicurezza o set di calibrazione, che non solo comportano un sovraccarico computazionale significativo durante il riallineamento, ma portano anche a un degrado evidente dell'utilità del modello. Contrariamente a questa convinzione, dimostriamo che l'allineamento alla sicurezza può essere completamente recuperato con un solo esempio di sicurezza, senza sacrificarne l'utilità e a costi minimi. Notevolmente, questo recupero è efficace indipendentemente dal numero di esempi dannosi utilizzati nell'ottimizzazione fine o dalla dimensione del modello sottostante, e la convergenza viene raggiunta in poche epoche. Inoltre, scopriamo la struttura a basso rango del gradiente di sicurezza, che spiega perché una correzione così efficiente è possibile. Convalidiamo i nostri risultati su cinque LLM allineati alla sicurezza e su più dataset, dimostrando la generalità del nostro approccio.

English

Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.

Sicurezza in un Colpo Solo: Correggere LLM Fine-Tuned con una Singola Istanza

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

Abstract

Support