Le approssimazioni di attivazione possono causare vulnerabilità alla sicurezza anche in LLM allineati: analisi e difesa esaustive

Abstract

I Large Language Models (LLM) hanno dimostrato notevoli capacità in vari settori. Insieme all'evolversi delle capacità e all'espansione degli scenari di implementazione dei LLM, le sfide legate alla loro implementazione aumentano a causa della loro enorme dimensione e dei progettazioni di attivazione avanzate ma complesse presenti in serie di modelli di rilievo, come Llama, Gemma e Mistral. Queste sfide sono diventate particolarmente evidenti in scenari di implementazione con risorse limitate, dove è imperativo mitigare i colli di bottiglia dell'efficienza inferenziale. Tra vari sforzi recenti, l'approssimazione dell'attivazione è emersa come una via promettente per perseguire l'efficienza inferenziale, a volte considerata indispensabile in applicazioni come l'inferenza privata. Nonostante il raggiungimento di significativi miglioramenti di velocità con un impatto minimo sull'utilità, apparendo anche affidabile e pratico per l'implementazione nel mondo reale, le implicazioni sulla sicurezza delle approssimazioni dell'attivazione rimangono poco chiare. In questo lavoro, colmiamo questa lacuna critica nella sicurezza dei LLM conducendo la prima valutazione sistematica della sicurezza delle approssimazioni dell'attivazione. La nostra valutazione della sicurezza copre sette tecniche all'avanguardia attraverso tre categorie popolari, rivelando una costante degradazione della sicurezza in dieci LLM allineati alla sicurezza.

English

Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, and Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference efficiency bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven sota techniques across three popular categories, revealing consistent safety degradation across ten safety-aligned LLMs.

Le approssimazioni di attivazione possono causare vulnerabilità alla sicurezza anche in LLM allineati: analisi e difesa esaustive

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

Abstract

Support