NeST: Sintonização Seletiva de Neurônios para Segurança de LLM

Resumo

O alinhamento de segurança é essencial para a implantação responsável de grandes modelos de linguagem (LLMs). No entanto, as abordagens existentes frequentemente dependem de ajuste fino (fine-tuning) pesado, que é custoso para atualizar, auditar e manter em diferentes famílias de modelos. O ajuste fino completo incorre em sobrecargas substanciais de computação e armazenamento, enquanto métodos com eficiência de parâmetros, como o LoRA, trocam eficiência por ganhos de segurança inconsistentes e sensibilidade a escolhas de projeto. Mecanismos de intervenção de segurança, como disjuntores (circuit breakers), reduzem saídas inseguras sem modificar os pesos do modelo, mas não moldam ou preservam diretamente as representações internas que governam o comportamento de segurança. Essas limitações dificultam atualizações de segurança rápidas e confiáveis, especialmente em contextos onde os modelos evoluem frequentemente ou devem se adaptar a novas políticas e domínios. Apresentamos o NeST, uma estrutura de alinhamento de segurança leve e consciente da estrutura, que fortalece o comportamento de recusa (refusal) ao adaptar seletivamente um pequeno subconjunto de neurônios relevantes para a segurança enquanto mantém congelado o restante do modelo. O NeST alinha as atualizações de parâmetros com a organização interna do comportamento de segurança, agrupando neurônios de segurança funcionalmente coerentes e aplicando atualizações compartilhadas dentro de cada cluster, permitindo uma adaptação de segurança direcionada e estável sem ampla modificação do modelo ou sobrecarga no tempo de inferência. Avaliamos o NeST em comparação com três linhas de base dominantes: ajuste fino completo, ajuste fino baseado em LoRA e disjuntores, em 10 LLMs de pesos abertos abrangendo múltiplas famílias e tamanhos de modelos. Em todos os modelos avaliados, o NeST reduz a taxa de sucesso de ataques de uma média de 44,5% para 4,36%, correspondendo a uma redução de 90,2% nas gerações inseguras, enquanto requer apenas 0,44 milhão de parâmetros treináveis em média. Isso representa uma redução de 17.310 vezes nos parâmetros atualizados em comparação com o ajuste fino completo e uma redução de 9,25 vezes em relação ao LoRA, ao mesmo tempo que alcança consistentemente um desempenho de segurança mais forte para o alinhamento.

English

Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains. We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.

NeST: Sintonização Seletiva de Neurônios para Segurança de LLM

NeST: Neuron Selective Tuning for LLM Safety

Resumo

Support