Mistura de Especialistas Feita Intrinsecamente Interpretável
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Autores: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Resumo
Neurônios em grandes modelos de linguagem frequentemente exibem polissemia, codificando simultaneamente múltiplos conceitos não relacionados e obscurecendo a interpretabilidade. Em vez de depender de métodos pós-hoc, apresentamos o MoE-X, um modelo de linguagem baseado em Mixture-of-Experts (MoE) projetado para ser intrinsecamente interpretável. Nossa abordagem é motivada pela observação de que, em modelos de linguagem, redes mais amplas com ativações esparsas têm maior probabilidade de capturar fatores interpretáveis. No entanto, treinar diretamente redes esparsas tão grandes é computacionalmente proibitivo. Arquiteturas MoE oferecem uma alternativa escalável ao ativar apenas um subconjunto de especialistas para qualquer entrada, alinhando-se naturalmente com os objetivos de interpretabilidade. No MoE-X, estabelecemos essa conexão ao reescrever a camada MoE como um MLP esparso e grande equivalente. Essa abordagem permite escalar eficientemente o tamanho oculto enquanto mantém a esparsidade. Para aprimorar ainda mais a interpretabilidade, impomos ativação esparsa dentro de cada especialista e redesenhamos o mecanismo de roteamento para priorizar especialistas com a maior esparsidade de ativação. Esses projetos garantem que apenas as características mais salientes sejam roteadas e processadas pelos especialistas. Avaliamos o MoE-X em tarefas de xadrez e linguagem natural, mostrando que ele alcança desempenho comparável a modelos densos enquanto melhora significativamente a interpretabilidade. O MoE-X alcança uma perplexidade melhor que o GPT-2, com interpretabilidade superando até mesmo abordagens baseadas em autoencoders esparsos (SAE).
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary