NeST: Neuron Selective Tuning für die Sicherheit von LLMs

papers.abstract

Sicherheitsausrichtung ist entscheidend für den verantwortungsvollen Einsatz großer Sprachmodelle (LLMs). Bisherige Ansätze beruhen jedoch häufig auf aufwändigem Fine-Tuning, das kostspielig in der Aktualisierung, Überprüfung und Wartung über Modellfamilien hinweg ist. Vollständiges Fine-Tuning verursacht erheblichen Rechen- und Speicheraufwand, während parameter-effiziente Methoden wie LoRA Effizienz gegen inkonsistente Sicherheitsgewinne und Empfindlichkeit gegenüber Designentscheidungen eintauschen. Sicherheits-Interventionsmechanismen wie „Circuit Breaker“ reduzieren unsichere Ausgaben ohne Modifikation der Modellgewichte, gestalten oder erhalten jedoch nicht direkt die internen Repräsentationen, die das Sicherheitsverhalten steuern. Diese Einschränkungen behindern schnelle und zuverlässige Sicherheitsupdates, insbesondere in Umgebungen, in denen Modelle sich häufig weiterentwickeln oder sich neuen Richtlinien und Domänen anpassen müssen. Wir stellen NeST vor, einen leichten, strukturorientierten Rahmen für die Sicherheitsausrichtung, der Ablehnungsverhalten verstärkt, indem er selektiv eine kleine Teilmenge sicherheitsrelevanter Neuronen anpasst, während der Rest des Modells eingefroren bleibt. NeST richtet Parameteraktualisierungen an der internen Organisation des Sicherheitsverhaltens aus, indem es funktional kohärente Sicherheitsneuronen clustert und gemeinsame Aktualisierungen innerhalb jedes Clusters erzwingt. Dies ermöglicht eine gezielte und stabile Sicherheitsanpassung ohne umfassende Modellmodifikation oder Zusatzaufwand zur Inferenzzeit. Wir vergleichen NeST mit drei verbreiteten Baseline-Methoden: vollständigem Fine-Tuning, LoRA-basiertem Fine-Tuning und Circuit Breakern über 10 Open-Weight-LLMs hinweg, die mehrere Modellfamilien und Größen abdecken. Über alle evaluierten Modelle hinweg reduziert NeST die Angriffserfolgsrate von durchschnittlich 44,5 % auf 4,36 %, was einer 90,2 %-igen Reduktion unsicherer Generierungen entspricht, während durchschnittlich nur 0,44 Millionen trainierbare Parameter benötigt werden. Dies bedeutet eine 17.310-fache Verringerung der aktualisierten Parameter im Vergleich zum vollständigen Fine-Tuning und eine 9,25-fache Reduktion gegenüber LoRA, bei gleichzeitig konsistent stärkerer Sicherheitsleistung für die Ausrichtung.

English

Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains. We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.

NeST: Neuron Selective Tuning für die Sicherheit von LLMs

NeST: Neuron Selective Tuning for LLM Safety

papers.abstract

Support