Aktivierungsapproximationen können Sicherheitsanfälligkeiten verursachen, selbst in ausgerichteten LLMs: Umfassende Analyse und Verteidigung
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense
February 2, 2025
Autoren: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Bereichen gezeigt. Mit den sich entwickelnden Fähigkeiten und den zunehmenden Einsatzszenarien von LLMs steigen auch die Herausforderungen bei ihrem Einsatz aufgrund ihrer schieren Größe und der fortschrittlichen, aber komplexen Aktivierungsentwürfe, die in bekannten Modellreihen wie Llama, Gemma und Mistral vorherrschen. Diese Herausforderungen sind insbesondere in ressourcenbeschränkten Einsatzszenarien deutlich geworden, wo die Reduzierung von Effizienzengpässen bei der Inferenz unerlässlich ist. Unter verschiedenen jüngsten Bemühungen hat sich die Aktivierungsapproximation als vielversprechender Ansatz zur Verbesserung der Inferenzeffizienz herauskristallisiert, der in Anwendungen wie privater Inferenz manchmal als unverzichtbar betrachtet wird. Trotz erheblicher Geschwindigkeitssteigerungen bei minimalem Einfluss auf die Nützlichkeit, die sogar für den realen Einsatz als solide und praktikabel erscheinen, bleiben die Sicherheitsimplikationen von Aktivierungsapproximationen unklar. In dieser Arbeit schließen wir diese kritische Lücke in der Sicherheit von LLMs, indem wir die erste systematische Sicherheitsbewertung von Aktivierungsapproximationen durchführen. Unsere Sicherheitsprüfung erstreckt sich über sieben sota-Techniken in drei beliebten Kategorien und zeigt eine konsistente Sicherheitsverschlechterung bei zehn sicherheitsorientierten LLMs auf.
English
Large Language Models (LLMs) have showcased remarkable capabilities across
various domains. Accompanying the evolving capabilities and expanding
deployment scenarios of LLMs, their deployment challenges escalate due to their
sheer scale and the advanced yet complex activation designs prevalent in
notable model series, such as Llama, Gemma, and Mistral. These challenges have
become particularly pronounced in resource-constrained deployment scenarios,
where mitigating inference efficiency bottlenecks is imperative. Among various
recent efforts, activation approximation has emerged as a promising avenue for
pursuing inference efficiency, sometimes considered indispensable in
applications such as private inference. Despite achieving substantial speedups
with minimal impact on utility, even appearing sound and practical for
real-world deployment, the safety implications of activation approximations
remain unclear. In this work, we fill this critical gap in LLM safety by
conducting the first systematic safety evaluation of activation approximations.
Our safety vetting spans seven sota techniques across three popular categories,
revealing consistent safety degradation across ten safety-aligned LLMs.Summary
AI-Generated Summary