NeST: Sintonizzazione Selettiva dei Neuroni per la Sicurezza degli LLM

Abstract

L'allineamento della sicurezza è essenziale per il deployment responsabile dei grandi modelli linguistici (LLM). Tuttavia, gli approcci esistenti spesso si basano su un fine-tuning pesante, costoso da aggiornare, verificare e mantenere tra diverse famiglie di modelli. Il fine-tuning completo comporta un sovraccarico computazionale e di archiviazione sostanziale, mentre metodi efficienti in termini di parametri come LoRA scambiano l'efficienza con guadagni di sicurezza inconsistenti e sensibilità alle scelte progettuali. I meccanismi di intervento di sicurezza, come gli interruttori di circuito, riducono gli output non sicuri senza modificare i pesi del modello, ma non modellano né preservano direttamente le rappresentazioni interne che governano il comportamento di sicurezza. Queste limitazioni ostacolano aggiornamenti rapidi e affidabili della sicurezza, specialmente in contesti in cui i modelli evolvono frequentemente o devono adattarsi a nuove politiche e domini. Presentiamo NeST, un framework di allineamento della sicurezza leggero e consapevole della struttura, che rafforza il comportamento di rifiuto adattando selettivamente un piccolo sottoinsieme di neuroni rilevanti per la sicurezza mentre congela il resto del modello. NeST allinea gli aggiornamenti dei parametri con l'organizzazione interna del comportamento di sicurezza raggruppando neuroni di sicurezza funzionalmente coerenti e applicando aggiornamenti condivisi all'interno di ogni cluster, consentendo un adattamento della sicurezza mirato e stabile senza un'ampia modifica del modello o sovraccarico in fase di inferenza. Abbiamo confrontato NeST con tre baseline dominanti: fine-tuning completo, fine-tuning basato su LoRA e interruttori di circuito, su 10 LLM open-weight che coprono multiple famiglie di modelli e dimensioni. In tutti i modelli valutati, NeST riduce il tasso di successo degli attacchi da una media del 44,5% al 4,36%, corrispondente a una riduzione del 90,2% delle generazioni non sicure, richiedendo in media solo 0,44 milioni di parametri addestrabili. Ciò equivale a una diminuzione di 17.310 volte nei parametri aggiornati rispetto al fine-tuning completo e a una riduzione di 9,25 volte rispetto a LoRA, raggiungendo costantemente prestazioni di sicurezza superiori per l'allineamento.

English

Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains. We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.

NeST: Sintonizzazione Selettiva dei Neuroni per la Sicurezza degli LLM

NeST: Neuron Selective Tuning for LLM Safety

Abstract

Support