NeST: Нейронная избирательная настройка для обеспечения безопасности больших языковых моделей
NeST: Neuron Selective Tuning for LLM Safety
February 18, 2026
Авторы: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi
cs.AI
Аннотация
Безопасностное согласование (safety alignment) является ключевым условием ответственного развертывания больших языковых моделей (LLM). Однако существующие подходы часто полагаются на ресурсоемкую тонкую настройку, затратную для обновления, аудита и поддержки в различных семействах моделей. Полная тонкая настройка приводит к значительным вычислительным и ресурсным затратам, в то время как параметрически-эффективные методы, такие как LoRA, жертвуют эффективностью ради нестабильного повышения безопасности и чувствительности к выбору проектных решений. Механизмы безопасности, такие как автоматические выключатели (circuit breakers), снижают количество небезопасных выводов без изменения весов модели, но не формируют и не сохраняют напрямую внутренние представления, управляющие поведением безопасности. Эти ограничения затрудняют быстрое и надежное обновление систем безопасности, особенно в условиях частого изменения моделей или необходимости адаптации к новым политикам и доменам.
Мы представляем NeST — облегченную структуро-ориентированную систему безопасностного согласования, которая усиливает поведение отказа за счет выборочной адаптации небольшого подмножества нейронов, связанных с безопасностью, при заморозке остальной части модели. NeST согласует обновления параметров с внутренней организацией поведения безопасности путем кластеризации функционально связанных нейронов безопасности и применения совместных обновлений внутри каждого кластера. Это позволяет осуществлять целенаправленную и стабильную адаптацию безопасности без масштабной модификации модели или дополнительных вычислительных затрат на этапе вывода. Мы провели сравнительный анализ NeST с тремя основными базовыми методами: полной тонкой настройкой, тонкой настройкой на основе LoRA и автоматическими выключателями на 10 открытых LLM, охватывающих различные семейства и размеры моделей. На всех протестированных моделях NeST снизил уровень успешности атак в среднем с 44,5% до 4,36%, что соответствует сокращению небезопасных генераций на 90,2%, при этом требуя в среднем всего 0,44 млн обучаемых параметров. Это эквивалентно уменьшению количества обновляемых параметров в 17 310 раз по сравнению с полной тонкой настройкой и в 9,25 раз по сравнению с LoRA, при этом consistently обеспечивая более высокую эффективность безопасностного согласования.
English
Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains.
We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.