本質的に解釈可能なエキスパートの混合モデル
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
著者: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
要旨
大規模言語モデルのニューロンは、しばしば多義性を示し、複数の無関係な概念を同時に符号化することで解釈可能性を曖昧にします。事後的な手法に頼るのではなく、本質的に解釈可能な設計を目指したMixture-of-Experts(MoE)言語モデルであるMoE-Xを提案します。我々のアプローチは、言語モデルにおいて、スパースな活性化を持つ幅広いネットワークが解釈可能な因子を捉えやすいという観察に基づいています。しかし、そのような大規模なスパースネットワークを直接訓練することは計算上非現実的です。MoEアーキテクチャは、任意の入力に対して専門家のサブセットのみを活性化することで、解釈可能性の目的と本質的に整合するスケーラブルな代替手段を提供します。MoE-Xでは、MoE層を等価なスパースな大規模MLPとして再定式化することで、この関連性を確立します。このアプローチにより、スパース性を維持しながら隠れ層のサイズを効率的にスケーリングすることが可能になります。さらに解釈可能性を向上させるため、各専門家内でスパースな活性化を強制し、最も活性化スパース性の高い専門家を優先するようにルーティングメカニズムを再設計します。これらの設計により、最も顕著な特徴のみが専門家にルーティングされ処理されることが保証されます。MoE-Xをチェスおよび自然言語タスクで評価し、密なモデルと同等の性能を維持しながら、解釈可能性を大幅に向上させることを示します。MoE-XはGPT-2を上回るパープレキシティを達成し、スパースオートエンコーダ(SAE)ベースのアプローチさえ凌ぐ解釈可能性を実現します。
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary