Grande Lobotomia de Linguagem: Desbloqueando Modelos de Mistura de Especialistas através do Silenciamento de Especialistas

Resumo

A rápida adoção de arquiteturas Mixture-of-Experts (MoE) marca uma grande mudança na implantação de Grandes Modelos de Linguagem (LLMs). Os LLMs MoE melhoram a eficiência de escalonamento ao ativar apenas um pequeno subconjunto de parâmetros por token, mas a sua estrutura de roteamento introduz novas superfícies de ataque à segurança. Descobrimos que comportamentos críticos para a segurança em LLMs MoE (por exemplo, recusa) estão concentrados em um pequeno conjunto de especialistas, em vez de serem uniformemente distribuídos. Com base nisso, propomos a Lobotomia de Grandes Modelos de Linguagem (L^3), um ataque agnóstico à arquitetura e sem necessidade de treinamento que compromete o alinhamento de segurança explorando a dinâmica de roteamento dos especialistas. A L^3 aprende padrões de roteamento que se correlacionam com a recusa, atribui o comportamento de segurança a especialistas específicos e silencia de forma adaptativa os especialistas mais relevantes para a segurança até que sejam produzidas saídas prejudiciais. Avaliamos a L^3 em oito LLMs MoE de código aberto de última geração e mostramos que o nosso silenciamento adaptativo de especialistas aumenta o sucesso médio do ataque de 7,3% para 70,4%, atingindo até 86,3%, superando métodos anteriores de *jailbreak* para MoE sem treinamento. Além disso, contornar as salvaguardas normalmente requer silenciar menos de 20% dos especialistas por camada, preservando em grande parte a utilidade linguística geral. Estes resultados revelam uma tensão fundamental entre o projeto MoE orientado para a eficiência e um alinhamento de segurança robusto, e motivam a distribuição de mecanismos de segurança de forma mais robusta em futuros LLMs MoE com métodos conscientes da arquitetura e do roteamento.

English

The rapid adoption of Mixture-of-Experts (MoE) architectures marks a major shift in the deployment of Large Language Models (LLMs). MoE LLMs improve scaling efficiency by activating only a small subset of parameters per token, but their routing structure introduces new safety attack surfaces. We find that safety-critical behaviors in MoE LLMs (e.g., refusal) are concentrated in a small set of experts rather than being uniformly distributed. Building on this, we propose Large Language Lobotomy (L^3), a training-free, architecture-agnostic attack that compromises safety alignment by exploiting expert routing dynamics. L^3 learns routing patterns that correlate with refusal, attributes safety behavior to specific experts, and adaptively silences the most safety-relevant experts until harmful outputs are produced. We evaluate L^3 on eight state-of-the-art open-source MoE LLMs and show that our adaptive expert silencing increases average attack success from 7.3% to 70.4%, reaching up to 86.3%, outperforming prior training-free MoE jailbreak methods. Moreover, bypassing guardrails typically requires silencing fewer than 20% of layer-wise experts while largely preserving general language utility. These results reveal a fundamental tension between efficiency-driven MoE design and robust safety alignment and motivate distributing safety mechanisms more robustly in future MoE LLMs with architecture- and routing-aware methods.

Grande Lobotomia de Linguagem: Desbloqueando Modelos de Mistura de Especialistas através do Silenciamento de Especialistas

Large Language Lobotomy: Jailbreaking Mixture-of-Experts via Expert Silencing

Resumo

Support