ChatPaper.aiChatPaper

한 번에 안전하게: 단일 인스턴스로 미세 조정된 LLM 패치하기

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

January 5, 2026
저자: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI

초록

안전 정렬된 대규모 언어 모델(LLM)을 미세 조정하면 그 안전성이 크게 훼손될 수 있다. 기존 접근법은 많은 안전 샘플 또는 보정 세트를 요구하는데, 이는 재정렬 과정에서 상당한 계산 부하를 초요할 뿐만 아니라 모델의 유용성이 현저히 저하되는 결과를 낳는다. 이러한 통념과 달리, 우리는 단 하나의 안전 예시만으로도 유용성을 희생하지 않고 최소 비용으로 안전 정렬을 완전히 회복할 수 있음을 보인다. 놀랍게도, 이러한 회복은 미세 조정에 사용된 유해 예시의 수나 기반 모델의 규모와 관계없이 효과적이며, 단 몇 에포크 내에 수렴이 달성된다. 나아가, 우리는 안전 기울기의 저차원 구조를 발견하여 왜 이처럼 효율적인 수정이 가능한지를 설명한다. 우리는 5개의 안전 정렬 LLM과 여러 데이터셋에 걸쳐 이러한 발견을 검증하여 우리 접근법의 보편성을 입증한다.
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.
PDF01January 10, 2026