NeST: 대규모 언어 모델 안전성을 위한 뉴런 선택적 튜닝
NeST: Neuron Selective Tuning for LLM Safety
February 18, 2026
저자: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi
cs.AI
초록
대규모 언어 모델(LLM)의 책임 있는 배포를 위해서는 안전성 정렬이 필수적입니다. 그러나 기존 접근법은 모델 패밀리 전체에 걸쳐 갱신, 감사 및 유지보수 비용이 많이 드는 고중량 미세 조정에 의존하는 경우가 많습니다. 완전 미세 조정은 상당한 계산 및 저장 오버헤드를 초래하는 반면, LoRA와 같은 매개변수 효율적 방법은 효율성을 안전성 향상의 불일치와 설계 선택에 대한 민감도와 맞바꿉니다. 회로 차단기와 같은 안전성 개입 메커니즘은 모델 가중치를 수정하지 않고 안전하지 않은 출력을 줄이지만, 안전성 행동을 지배하는 내부 표현을 직접적으로 형성하거나 보존하지는 않습니다. 이러한 한계는 모델이 빈번히 진화하거나 새로운 정책과 도메인에 적응해야 하는 환경에서 특히 신속하고 안정적인 안전성 업데이트를 저해합니다.
본 논문에서는 모델의 나머지 부분을 고정한 상태에서 안전성 관련 뉴런의 소수 하위 집합만 선택적으로 적응시켜 거부 행동을 강화하는 경량 구조 인식 안전성 정렬 프레임워크인 NeST를 제시합니다. NeST는 기능적으로 일관된 안전성 뉴런을 클러스터링하고 각 클러스터 내에서 공유 업데이트를 적용함으로써 매개변수 업데이트를 안전성 행동의 내부 조직 구조와 정렬시켜, 광범위한 모델 수정이나 추론 시점 오버헤드 없이 표적화되고 안정적인 안전성 적응을 가능하게 합니다. 우리는 NeST를 완전 미세 조정, LoRA 기반 미세 조정, 회로 차단기라는 세 가지 주요 기준선과 다중 모델 패밀리 및 크기에 걸친 10개의 오픈 가중치 LLM에서 비교 평가했습니다. 평가된 모든 모델에서 NeST는 평균 공격 성공률을 44.5%에서 4.36%로 감소시켜 안전하지 않은 생성물이 평균 90.2% 줄어들었으며, 평균적으로 단 44만 개의 학습 가능 매개변수만을 필요로 했습니다. 이는 완전 미세 조정 대비 업데이트된 매개변수 수가 17,310배 감소하고 LoRA 대비 9.25배 감소한 수치이며, 정렬을 위한 더 강력한 안전성 성능을 일관되게 달성했습니다.
English
Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains.
We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.