Las Aproximaciones de Activación Pueden Incurrir en Vulnerabilidades de Seguridad Incluso en LLMs Alineados: Análisis Integral y Defensa
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
Autores: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) han demostrado capacidades notables en diversos dominios. A medida que evolucionan las capacidades y se expanden los escenarios de implementación de los LLMs, los desafíos de implementación aumentan debido a su gran escala y a los diseños de activación avanzados pero complejos presentes en series de modelos destacados, como Llama, Gemma y Mistral. Estos desafíos se han vuelto particularmente evidentes en escenarios de implementación con recursos limitados, donde es imperativo mitigar los cuellos de botella en la eficiencia de inferencia. Entre varios esfuerzos recientes, la aproximación de activación ha surgido como una vía prometedora para mejorar la eficiencia de inferencia, a veces considerada indispensable en aplicaciones como la inferencia privada. A pesar de lograr aceleraciones sustanciales con un impacto mínimo en la utilidad, e incluso parecer sólida y práctica para la implementación en el mundo real, las implicaciones de seguridad de las aproximaciones de activación siguen siendo poco claras. En este trabajo, cubrimos esta brecha crítica en la seguridad de los LLMs al realizar la primera evaluación sistemática de seguridad de las aproximaciones de activación. Nuestra evaluación de seguridad abarca siete técnicas de vanguardia en tres categorías populares, revelando una degradación consistente de la seguridad en diez LLMs alineados con la seguridad.
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.Summary
AI-Generated Summary