NeST: Sintonización Selectiva de Neuronas para la Seguridad de los LLM
NeST: Neuron Selective Tuning for LLM Safety
February 18, 2026
Autores: Sasha Behrouzi, Lichao Wu, Mohamadreza Rostami, Ahmad-Reza Sadeghi
cs.AI
Resumen
La alineación de seguridad es esencial para el despliegue responsable de los grandes modelos de lenguaje (LLM). Sin embargo, los enfoques existentes a menudo dependen de un ajuste fino (fine-tuning) pesado que resulta costoso de actualizar, auditar y mantener entre diferentes familias de modelos. El ajuste fino completo conlleva una sobrecarga computacional y de almacenamiento sustancial, mientras que métodos eficientes en parámetros como LoRA sacrifican eficiencia por ganancias de seguridad inconsistentes y sensibilidad a las elecciones de diseño. Los mecanismos de intervención de seguridad, como los cortacircuitos (circuit breakers), reducen las salidas no seguras sin modificar los pesos del modelo, pero no moldean ni preservan directamente las representaciones internas que gobiernan el comportamiento de seguridad. Estas limitaciones dificultan las actualizaciones de seguridad rápidas y confiables, particularmente en entornos donde los modelos evolucionan con frecuencia o deben adaptarse a nuevas políticas y dominios.
Presentamos NeST, un marco de alineación de seguridad liviano y consciente de la estructura, que fortalece el comportamiento de rechazo (refusal) adaptando selectivamente un pequeño subconjunto de neuronas relevantes para la seguridad mientras congela el resto del modelo. NeST alinea las actualizaciones de parámetros con la organización interna del comportamiento de seguridad mediante la agrupación (clustering) de neuronas de seguridad funcionalmente coherentes y la aplicación de actualizaciones compartidas dentro de cada grupo. Esto permite una adaptación de seguridad dirigida y estable sin una modificación amplia del modelo ni sobrecarga en tiempo de inferencia. Evaluamos a NeST frente a tres métodos de referencia dominantes: ajuste fino completo, ajuste fino basado en LoRA y cortacircuitos, utilizando 10 LLM de pesos abiertos que abarcan múltiples familias de modelos y tamaños. En todos los modelos evaluados, NeST reduce la tasa de éxito de los ataques de un promedio del 44,5% al 4,36%, lo que corresponde a una reducción del 90,2% en las generaciones no seguras, mientras requiere solo 0,44 millones de parámetros entrenables en promedio. Esto equivale a una disminución de 17.310 veces en los parámetros actualizados en comparación con el ajuste fino completo y una reducción de 9,25 veces en relación con LoRA, logrando consistentemente un rendimiento de seguridad más sólido para la alineación.
English
Safety alignment is essential for the responsible deployment of large language models (LLMs). Yet, existing approaches often rely on heavyweight fine-tuning that is costly to update, audit, and maintain across model families. Full fine-tuning incurs substantial computational and storage overhead, while parameter-efficient methods such as LoRA trade efficiency for inconsistent safety gains and sensitivity to design choices. Safety intervention mechanisms such as circuit breakers reduce unsafe outputs without modifying model weights, but do not directly shape or preserve the internal representations that govern safety behavior. These limitations hinder rapid and reliable safety updates, particularly in settings where models evolve frequently or must adapt to new policies and domains.
We present NeST, a lightweight, structure-aware safety alignment framework that strengthens refusal behavior by selectively adapting a small subset of safety-relevant neurons while freezing the remainder of the model. NeST aligns parameter updates with the internal organization of safety behavior by clustering functionally coherent safety neurons and enforcing shared updates within each cluster, enabling targeted and stable safety adaptation without broad model modification or inference-time overhead. We benchmark NeST against three dominant baselines: full fine-tuning, LoRA-based fine-tuning, and circuit breakers across 10 open-weight LLMs spanning multiple model families and sizes. Across all evaluated models, NeST reduces the attack success rate from an average of 44.5% to 4.36%, corresponding to a 90.2% reduction in unsafe generations, while requiring only 0.44 million trainable parameters on average. This amounts to a 17,310x decrease in updated parameters compared to full fine-tuning and a 9.25x reduction relative to LoRA, while consistently achieving stronger safety performance for alignment.