Les approximations d'activation peuvent entraîner des vulnérabilités de sécurité même dans les LLM alignés : Analyse complète et défense.

papers.abstract

Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans divers domaines. En parallèle de l'évolution de leurs capacités et de l'expansion des scénarios de déploiement des LLM, les défis de déploiement augmentent en raison de leur échelle impressionnante et des conceptions d'activation avancées mais complexes présentes dans des séries de modèles notables telles que Llama, Gemma et Mistral. Ces défis sont devenus particulièrement marqués dans des scénarios de déploiement aux ressources limitées, où atténuer les goulots d'étranglement de l'efficacité de l'inférence est impératif. Parmi les divers efforts récents, l'approximation d'activation a émergé comme une voie prometteuse pour améliorer l'efficacité de l'inférence, parfois considérée comme indispensable dans des applications telles que l'inférence privée. Malgré l'obtention de gains de vitesse substantiels avec un impact minimal sur l'utilité, paraissant même fiable et pratique pour un déploiement réel, les implications en termes de sécurité des approximations d'activation restent floues. Dans ce travail, nous comblons cette lacune critique en matière de sécurité des LLM en menant la première évaluation systématique de la sécurité des approximations d'activation. Notre évaluation de sécurité couvre sept techniques de pointe réparties dans trois catégories populaires, révélant une dégradation de la sécurité constante à travers dix LLM alignés sur la sécurité.

English

Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, and Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference efficiency bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven sota techniques across three popular categories, revealing consistent safety degradation across ten safety-aligned LLMs.

Les approximations d'activation peuvent entraîner des vulnérabilités de sécurité même dans les LLM alignés : Analyse complète et défense.

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

papers.abstract

Support