ChatPaper.aiChatPaper

Activeringsbenaderingen kunnen zelfs in uitgelijnde LLM's veiligheidskwetsbaarheden veroorzaken: uitgebreide analyse en verdediging

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

February 2, 2025
Auteurs: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten laten zien in verschillende domeinen. Met de evoluerende capaciteiten en uitbreidende inzetscenario's van LLM's nemen de uitdagingen bij implementatie toe vanwege hun enorme omvang en de geavanceerde maar complexe activatieontwerpen die gangbaar zijn in opmerkelijke modelseries, zoals Llama, Gemma en Mistral. Deze uitdagingen zijn met name merkbaar in implementaties met beperkte middelen, waar het verminderen van efficiëntieknelpunten bij inferentie van essentieel belang is. Onder verschillende recente inspanningen is activatiebenadering naar voren gekomen als een veelbelovende weg om inferentie-efficiëntie na te streven, soms beschouwd als onmisbaar in toepassingen zoals privé-inferentie. Ondanks aanzienlijke versnellingen te behalen met minimale impact op bruikbaarheid, en zelfs klinkend en praktisch voor implementatie in de echte wereld, blijven de veiligheidsimplicaties van activatiebenaderingen onduidelijk. In dit werk vullen we deze kritieke lacune in de veiligheid van LLM's aan door de eerste systematische veiligheidsevaluatie van activatiebenaderingen uit te voeren. Onze veiligheidsbeoordeling omvat zeven state-of-the-art technieken in drie populaire categorieën, waarbij consistente veiligheidsdegradatie wordt onthuld over tien veiligheidsgerichte LLM's.
English
Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, and Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference efficiency bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven sota techniques across three popular categories, revealing consistent safety degradation across ten safety-aligned LLMs.

Summary

AI-Generated Summary

PDF13February 5, 2025