活性化の近似は、整合されたLLMでも安全性の脆弱性を引き起こす可能性があります:包括的な分析と防御。
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
著者: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
要旨
大規模言語モデル(LLMs)は、さまざまな領域で顕著な能力を披露してきました。LLMsの進化する能力と展開シナリオの拡大に伴い、Llama、Gemma、Mistralなどの注目すべきモデルシリーズに見られる高度で複雑な活性化設計と、その膨大なスケールにより、展開上の課題がエスカレートしています。これらの課題は、リソースに制約のある展開シナリオにおいて特に顕著であり、推論効率のボトルネックを緩和することが不可欠です。最近のさまざまな取り組みの中で、活性化の近似が推論効率を追求する有望な手段として浮上しており、プライベート推論などのアプリケーションにおいて不可欠とされることもあります。効用にほとんど影響を与えずに実質的な高速化を達成し、現実の展開において妥当で実用的に見えるにもかかわらず、活性化の近似の安全性に関する影響は不明です。本研究では、活性化の近似の初の体系的な安全性評価を行うことで、LLMの安全性におけるこの重要なギャップを埋めます。安全性の検証は、3つの人気カテゴリーにまたがる7つの最先端技術を対象とし、10の安全性に配慮したLLMにわたって一貫した安全性の低下が明らかになりました。
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.Summary
AI-Generated Summary