Sicherheit auf einen Schlag: Feinabstimmung von LLMs mit einer einzigen Instanz korrigieren
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
papers.authors: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
papers.abstract
Das Feinabstimmen von sicherheitsausgerichteten großen Sprachmodellen (LLMs) kann deren Sicherheit erheblich beeinträchtigen. Bisherige Ansätze erfordern viele Sicherheitsbeispiele oder Kalibrierungsdatensätze, was nicht nur erheblichen Rechenaufwand während der Neuausrichtung verursacht, sondern auch zu einer spürbaren Verschlechterung der Modellnutzbarkeit führt. Im Gegensatz zu dieser Annahme zeigen wir, dass die Sicherheitsausrichtung mit nur einem einzigen Sicherheitsbeispiel vollständig wiederhergestellt werden kann – ohne Nutzungseinbußen und mit minimalem Aufwand. Bemerkenswerterweise ist diese Wiederherstellung unabhängig von der Anzahl der beim Fine-Tuning verwendeten schädlichen Beispiele oder der Größe des zugrundeliegenden Modells wirksam, und die Konvergenz wird innerhalb weniger Epochen erreicht. Darüber hinaus decken wir die Niedrigrang-Struktur des Sicherheitsgradienten auf, was erklärt, warum eine so effiziente Korrektur möglich ist. Wir validieren unsere Erkenntnisse an fünf sicherheitsausgerichteten LLMs und mehreren Datensätzen, was die Allgemeingültigkeit unseres Ansatzes demonstriert.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.