Le approssimazioni di attivazione possono causare vulnerabilità alla sicurezza anche in LLM allineati: analisi e difesa esaustive
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
Autori: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
Abstract
I Large Language Models (LLM) hanno dimostrato notevoli capacità in vari settori. Insieme all'evolversi delle capacità e all'espansione degli scenari di implementazione dei LLM, le sfide legate alla loro implementazione aumentano a causa della loro enorme dimensione e dei progettazioni di attivazione avanzate ma complesse presenti in serie di modelli di rilievo, come Llama, Gemma e Mistral. Queste sfide sono diventate particolarmente evidenti in scenari di implementazione con risorse limitate, dove è imperativo mitigare i colli di bottiglia dell'efficienza inferenziale. Tra vari sforzi recenti, l'approssimazione dell'attivazione è emersa come una via promettente per perseguire l'efficienza inferenziale, a volte considerata indispensabile in applicazioni come l'inferenza privata. Nonostante il raggiungimento di significativi miglioramenti di velocità con un impatto minimo sull'utilità, apparendo anche affidabile e pratico per l'implementazione nel mondo reale, le implicazioni sulla sicurezza delle approssimazioni dell'attivazione rimangono poco chiare. In questo lavoro, colmiamo questa lacuna critica nella sicurezza dei LLM conducendo la prima valutazione sistematica della sicurezza delle approssimazioni dell'attivazione. La nostra valutazione della sicurezza copre sette tecniche all'avanguardia attraverso tre categorie popolari, rivelando una costante degradazione della sicurezza in dieci LLM allineati alla sicurezza.
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.Summary
AI-Generated Summary