NeST : Réglage Sélectif des Neurones pour la Sécurité des LLM
NeST: Neuron Selective Tuning for LLM Safety
February 18, 2026
papers.authors: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi
cs.AI
papers.abstract
L'alignement de sécurité est essentiel pour le déploiement responsable des grands modèles de langage (LLM). Pourtant, les approches existantes reposent souvent sur un ajustement fin (« fine-tuning ») lourd, coûteux à mettre à jour, à auditer et à maintenir entre différentes familles de modèles. L'ajustement fin complet entraîne des surcharges substantielles en calcul et en stockage, tandis que les méthodes paramétriquement efficaces comme LoRA échangent l'efficacité contre des gains de sécurité inconstants et une sensibilité aux choix de conception. Les mécanismes d'intervention de sécurité, tels que les disjoncteurs (« circuit breakers »), réduisent les sorties non sécurisées sans modifier les poids du modèle, mais ne façonnent ni ne préservent directement les représentations internes qui régissent le comportement de sécurité. Ces limitations entravent les mises à jour de sécurité rapides et fiables, en particulier dans des contextes où les modèles évoluent fréquemment ou doivent s'adapter à de nouvelles politiques et domaines.
Nous présentons NeST, un cadre d'alignement de sécurité léger et structurellement conscient qui renforce le comportement de refus en adaptant de manière sélective un petit sous-ensemble de neurones pertinents pour la sécurité tout en gelant le reste du modèle. NeST aligne les mises à jour des paramètres avec l'organisation interne du comportement de sécurité en regroupant les neurones de sécurité fonctionnellement cohérents et en appliquant des mises à jour partagées au sein de chaque cluster, permettant une adaptation de sécurité ciblée et stable sans modification étendue du modèle ni surcharge au moment de l'inférence. Nous évaluons NeST par rapport à trois méthodes de référence dominantes : l'ajustement fin complet, l'ajustement fin basé sur LoRA et les disjoncteurs, sur 10 LLM à poids ouverts couvrant plusieurs familles de modèles et tailles. Sur l'ensemble des modèles évalués, NeST réduit le taux de réussite des attaques de 44,5 % en moyenne à 4,36 %, ce qui correspond à une réduction de 90,2 % des générations non sécurisées, tout en nécessitant seulement 0,44 million de paramètres entraînables en moyenne. Cela représente une diminution d'un facteur 17 310 des paramètres mis à jour par rapport à l'ajustement fin complet et une réduction d'un facteur 9,25 par rapport à LoRA, tout en atteignant constamment une performance de sécurité supérieure pour l'alignement.
English
Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains.
We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.