Les approximations d'activation peuvent entraîner des vulnérabilités de sécurité même dans les LLM alignés : Analyse complète et défense.
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
Auteurs: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans divers domaines. En parallèle de l'évolution de leurs capacités et de l'expansion des scénarios de déploiement des LLM, les défis de déploiement augmentent en raison de leur échelle impressionnante et des conceptions d'activation avancées mais complexes présentes dans des séries de modèles notables telles que Llama, Gemma et Mistral. Ces défis sont devenus particulièrement marqués dans des scénarios de déploiement aux ressources limitées, où atténuer les goulots d'étranglement de l'efficacité de l'inférence est impératif. Parmi les divers efforts récents, l'approximation d'activation a émergé comme une voie prometteuse pour améliorer l'efficacité de l'inférence, parfois considérée comme indispensable dans des applications telles que l'inférence privée. Malgré l'obtention de gains de vitesse substantiels avec un impact minimal sur l'utilité, paraissant même fiable et pratique pour un déploiement réel, les implications en termes de sécurité des approximations d'activation restent floues. Dans ce travail, nous comblons cette lacune critique en matière de sécurité des LLM en menant la première évaluation systématique de la sécurité des approximations d'activation. Notre évaluation de sécurité couvre sept techniques de pointe réparties dans trois catégories populaires, révélant une dégradation de la sécurité constante à travers dix LLM alignés sur la sécurité.
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.Summary
AI-Generated Summary