NeST: Neuron Selectieve Afstemming voor LLM Veiligheid

Samenvatting

Veiligheidsuitlijning is essentieel voor de verantwoorde inzet van grote taalmodellen (LLM's). Toch baseren bestaande methoden zich vaak op zware fine-tuning die kostbaar is om bij te werken, te controleren en te onderhouden tussen modelfamilies. Volledige fine-tuning brengt aanzienlijke reken- en opslagkosten met zich mee, terwijl parameter-efficiënte methoden zoals LoRA efficiëntie inruilen voor inconsistente veiligheidswinst en gevoeligheid voor ontwerpkeuzes. Veiligheidsinterventiemechanismen zoals noodstopvoorzieningen verminderen onveilige uitvoer zonder de modelgewichten aan te passen, maar sturen of behouden niet direct de interne representaties die het veiligheidsgedrag bepalen. Deze beperkingen belemmeren snelle en betrouwbare veiligheidsupdates, vooral in omgevingen waar modellen frequent evolueren of zich moeten aanpassen aan nieuwe beleidsregels en domeinen. Wij presenteren NeST, een lichtgewicht, structuurbewust raamwerk voor veiligheidsuitlijning dat weigeringsgedrag versterkt door selectief een kleine subset van veiligheidsrelevante neuronen aan te passen, terwijl de rest van het model wordt bevroren. NeST stemt parameterupdates af op de interne organisatie van veiligheidsgedrag door functioneel samenhangende veiligheidsneuronen te clusteren en gedeelde updates binnen elke cluster af te dwingen. Dit maakt gerichte en stabiele veiligheidsaanpassing mogelijk zonder bredere modelwijziging of overhead tijdens inferentie. Wij evalueren NeST tegen drie dominante referentiemethoden: volledige fine-tuning, LoRA-gebaseerde fine-tuning en noodstopvoorzieningen, over 10 open-weight LLM's die meerdere modelfamilies en groottes omspannen. Over alle geëvalueerde modellen reduceert NeST het aanvalsuccespercentage van gemiddeld 44,5% naar 4,36%, wat overeenkomt met een vermindering van 90,2% in onveilige gegenereerde antwoorden, terwijl gemiddeld slechts 0,44 miljoen trainbare parameters nodig zijn. Dit komt neer op een 17.310x vermindering in bijgewerkte parameters vergeleken met volledige fine-tuning en een 9,25x reductie ten opzichte van LoRA, terwijl consequent sterkere veiligheidsprestaties voor uitlijning worden behaald.

English

Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains. We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.

NeST: Neuron Selectieve Afstemming voor LLM Veiligheid

NeST: Neuron Selective Tuning for LLM Safety

Samenvatting

Support