ChatPaper.aiChatPaper

ワンショット安全性:単一インスタンスによるファインチューニング済みLLMの修正

Safety at One Shot: Patching Fine-Tuned LLMs with A Single Instance

January 5, 2026
著者: Jiawen Zhang, Lipeng He, Kejia Chen, Jian Lou, Jian Liu, Xiaohu Yang, Ruoxi Jia
cs.AI

要旨

安全性を考慮して調整された大規模言語モデル(LLM)のファインチューニングは、その安全性を大幅に損なう可能性がある。従来のアプローチでは、多数の安全性サンプルや較正セットが必要であり、リアラインメント時に多大な計算コストがかかるだけでなく、モデルの有用性が顕著に低下するという問題があった。これに対し我々は、たった一つの安全性事例のみを用いて、有用性を犠牲にすることなく、最小限のコストで安全性調整を完全に回復できることを示す。驚くべきことに、この回復効果はファインチューニングで使用された有害事例の数や基盤モデルのサイズに依存せず、わずか数エポックで収束が達成される。さらに、我々は安全性勾配の低ランク構造を明らかにし、このような効率的な修正が可能な理由を説明する。5つの安全性調整済みLLMと複数のデータセットを用いた検証を通じて、本アプローチの汎用性を実証する。
English
Fine-tuning safety-aligned large language models (LLMs) can substantially compromise their safety. Previous approaches require many safety samples or calibration sets, which not only incur significant computational overhead during realignment but also lead to noticeable degradation in model utility. Contrary to this belief, we show that safety alignment can be fully recovered with only a single safety example, without sacrificing utility and at minimal cost. Remarkably, this recovery is effective regardless of the number of harmful examples used in fine-tuning or the size of the underlying model, and convergence is achieved within just a few epochs. Furthermore, we uncover the low-rank structure of the safety gradient, which explains why such efficient correction is possible. We validate our findings across five safety-aligned LLMs and multiple datasets, demonstrating the generality of our approach.
PDF01January 10, 2026