Mezcla de Expertos Hecha Intrínsecamente Interpretable
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Autores: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Resumen
Las neuronas en los modelos de lenguaje de gran escala a menudo exhiben polisemanticidad, codificando simultáneamente múltiples conceptos no relacionados y oscureciendo la interpretabilidad. En lugar de depender de métodos post-hoc, presentamos MoE-X, un modelo de lenguaje de Mezcla de Expertos (MoE, por sus siglas en inglés) diseñado para ser intrínsecamente interpretable. Nuestro enfoque se basa en la observación de que, en los modelos de lenguaje, las redes más amplias con activaciones dispersas tienen más probabilidades de capturar factores interpretables. Sin embargo, entrenar directamente redes dispersas tan grandes es computacionalmente prohibitivo. Las arquitecturas MoE ofrecen una alternativa escalable al activar solo un subconjunto de expertos para cualquier entrada dada, alineándose inherentemente con los objetivos de interpretabilidad. En MoE-X, establecemos esta conexión reformulando la capa MoE como un MLP disperso y grande equivalente. Este enfoque permite escalar eficientemente el tamaño oculto mientras se mantiene la dispersión. Para mejorar aún más la interpretabilidad, aplicamos activaciones dispersas dentro de cada experto y rediseñamos el mecanismo de enrutamiento para priorizar a los expertos con la mayor dispersión de activación. Estos diseños aseguran que solo las características más destacadas sean enrutadas y procesadas por los expertos. Evaluamos MoE-X en tareas de ajedrez y lenguaje natural, demostrando que logra un rendimiento comparable a los modelos densos mientras mejora significativamente la interpretabilidad. MoE-X alcanza una perplejidad mejor que GPT-2, con una interpretabilidad que supera incluso a los enfoques basados en autoencodificadores dispersos (SAE).
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary