NeST: 大規模言語モデルの安全性のためのニューロン選択的チューニング
NeST: Neuron Selective Tuning for LLM Safety
February 18, 2026
著者: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi
cs.AI
要旨
安全性アライメントは、大規模言語モデル(LLM)を責任を持って展開する上で不可欠である。しかし、既存のアプローチは、モデルファミリー間で更新、監査、維持するのにコストがかかる重量級のファインチューニングに依存することが多い。フルファインチューニングは計算コストとストレージのオーバーヘッドが大きく、LoRAのようなパラメータ効率の良い手法は効率性と引き換えに、安全性向上の一貫性のなさや設計選択への敏感性といった課題がある。回路遮断機のような安全性介入メカニズムはモデルの重みを変更せずに不安全な出力を減らすが、安全性行動を司る内部表現を直接形成したり保持したりするものではない。これらの制限は、特にモデルが頻繁に進化したり、新しいポリシーやドメインに適応する必要がある環境において、迅速かつ信頼性の高い安全性更新を妨げている。
本研究では、NeSTという軽量で構造を考慮した安全性アライメントフレームワークを提案する。NeSTはモデルの大部分を凍結したまま、安全性に関連する少数のニューロンのみを選択的に適応させることで、拒否行動を強化する。機能的に一貫性のある安全性ニューロンをクラスタリングし、各クラスタ内で更新を共有させることで、パラメータ更新を安全性行動の内部構造に沿って調整し、広範なモデル変更や推論時のオーバーヘッドなしに、標的的で安定した安全性適応を可能にする。我々はNeSTを、フルファインチューニング、LoRAベースのファインチューニング、回路遮断機という3つの主要なベースラインと比較し、複数のモデルファミリーとサイズにわたる10のオープンウェイトLLMで評価した。評価した全てのモデルにおいて、NeSTは攻撃成功率を平均44.5%から4.36%に低下させ、不安全な生成を90.2%削減した。これは、平均でわずか44万個の学習可能パラメータのみを必要とし、フルファインチューニングと比較して更新パラメータ数を17,310分の1に、LoRAと比較して9.25分の1に削減しつつ、アライメントにおいて一貫して強力な安全性パフォーマンスを達成した。
English
Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains.
We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.