Безопасность за один шаг: исправление тонко настроенных больших языковых моделей с помощью одного экземпляра
Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance
January 5, 2026
Авторы: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI
Аннотация
Тонкая настройка больших языковых моделей (LLM), выровненных по безопасности, может существенно нарушить их защитные свойства. Предыдущие подходы требовали множества безопасных образцов или калибровочных наборов, что не только влечет значительные вычислительные затраты при повторном выравнивании, но и приводит к заметной деградации полезности модели. Вопреки этому убеждению, мы показываем, что безопасность можно полностью восстановить всего с одним безопасным примером, без ущерба для полезности и с минимальными затратами. Примечательно, что это восстановление эффективно независимо от количества вредоносных примеров, использованных при тонкой настройке, или размера базовой модели, а сходимость достигается всего за несколько эпох. Более того, мы обнаруживаем низкоранговую структуру градиента безопасности, что объясняет возможность такой эффективной коррекции. Мы проверяем наши выводы на пяти LLM, выровненных по безопасности, и нескольких наборах данных, демонстрируя универсальность нашего подхода.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.