ChatPaper.aiChatPaper

Aproximações de Ativação Podem Acarretar Vulnerabilidades de Segurança Mesmo em LLMs Alinhados: Análise Abrangente e Defesa

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

February 2, 2025
Autores: Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversos domínios. Acompanhando as capacidades em evolução e os cenários de implementação em expansão dos LLMs, os desafios de implementação aumentam devido à sua grande escala e aos designs avançados, porém complexos, prevalentes em séries de modelos notáveis, como Llama, Gemma e Mistral. Esses desafios têm se tornado particularmente evidentes em cenários de implementação com recursos limitados, nos quais a mitigação de gargalos de eficiência de inferência é imperativa. Entre vários esforços recentes, a aproximação de ativação surgiu como uma via promissora para buscar eficiência de inferência, às vezes considerada indispensável em aplicações como inferência privada. Apesar de alcançar melhorias substanciais de velocidade com impacto mínimo na utilidade, parecendo viável e prática até mesmo para implementação no mundo real, as implicações de segurança das aproximações de ativação permanecem incertas. Neste trabalho, preenchemos essa lacuna crítica na segurança de LLMs realizando a primeira avaliação sistemática de segurança de aproximações de ativação. Nossa avaliação de segurança abrange sete técnicas de ponta em três categorias populares, revelando uma degradação consistente na segurança em dez LLMs alinhados com a segurança.
English
Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, and Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference efficiency bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven sota techniques across three popular categories, revealing consistent safety degradation across ten safety-aligned LLMs.

Summary

AI-Generated Summary

PDF13February 5, 2025