Приближения активации могут вызвать уязвимости безопасности даже в выровненных LLM: комплексный анализ и защита
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
Авторы: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в различных областях. Вместе с развивающимися возможностями и расширяющимися сценариями применения LLM, их вызовы в развертывании усиливаются из-за их огромного масштаба и сложных конструкций активации, присущих известным сериям моделей, таким как Лама, Гемма и Мистраль. Эти вызовы становятся особенно заметными в сценариях ограниченных ресурсов, где обеспечение эффективности вывода является неотъемлемым. Среди различных недавних усилий аппроксимация активации выделяется как многообещающее направление для повышения эффективности вывода, иногда считаемое необходимым в приложениях, таких как частный вывод. Несмотря на значительное увеличение скорости с минимальным влиянием на полезность, иногда кажется звучным и практичным для применения в реальном мире, безопасные последствия аппроксимации активации остаются неясными. В данной работе мы заполняем этот критический пробел в области безопасности LLM, проводя первую систематическую оценку безопасности аппроксимаций активации. Наша проверка безопасности охватывает семь передовых техник из трех популярных категорий, раскрывая последовательное снижение безопасности у десяти безопасно ориентированных LLM.
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.