Смесь экспертов с внутренней интерпретируемостью
Mixture of Experts Made Intrinsically Interpretable
March 5, 2025
Авторы: Xingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
cs.AI
Аннотация
Нейроны в крупных языковых моделях часто проявляют полисемантичность, одновременно кодируя несколько несвязанных концепций, что затрудняет интерпретацию. Вместо использования постфактумных методов мы представляем MoE-X — языковую модель на основе смеси экспертов (Mixture-of-Experts, MoE), разработанную для обеспечения внутренней интерпретируемости. Наш подход основан на наблюдении, что в языковых моделях более широкие сети с разреженными активациями с большей вероятностью захватывают интерпретируемые факторы. Однако прямое обучение таких крупных разреженных сетей вычислительно нецелесообразно. Архитектуры MoE предлагают масштабируемую альтернативу, активируя только подмножество экспертов для каждого входного данных, что естественным образом соответствует целям интерпретируемости. В MoE-X мы устанавливаем эту связь, переписывая слой MoE как эквивалентную разреженную крупную MLP. Этот подход позволяет эффективно масштабировать размер скрытого слоя, сохраняя разреженность. Для дальнейшего повышения интерпретируемости мы обеспечиваем разреженную активацию внутри каждого эксперта и перерабатываем механизм маршрутизации, чтобы отдавать приоритет экспертам с наибольшей разреженностью активации. Эти решения гарантируют, что только наиболее значимые признаки маршрутизируются и обрабатываются экспертами. Мы оцениваем MoE-X на задачах, связанных с шахматами и естественным языком, демонстрируя, что она достигает производительности, сравнимой с плотными моделями, при этом значительно улучшая интерпретируемость. MoE-X достигает перплексии лучше, чем GPT-2, с интерпретируемостью, превосходящей даже подходы на основе разреженных автокодировщиков (SAE).
English
Neurons in large language models often exhibit polysemanticity,
simultaneously encoding multiple unrelated concepts and obscuring
interpretability. Instead of relying on post-hoc methods, we present
MoE-X, a Mixture-of-Experts (MoE) language model designed to be
intrinsically interpretable. Our approach is motivated by the
observation that, in language models, wider networks with sparse activations
are more likely to capture interpretable factors. However, directly training
such large sparse networks is computationally prohibitive. MoE architectures
offer a scalable alternative by activating only a subset of experts for any
given input, inherently aligning with interpretability objectives. In MoE-X, we
establish this connection by rewriting the MoE layer as an equivalent sparse,
large MLP. This approach enables efficient scaling of the hidden size while
maintaining sparsity. To further enhance interpretability, we enforce sparse
activation within each expert and redesign the routing mechanism to prioritize
experts with the highest activation sparsity. These designs ensure that only
the most salient features are routed and processed by the experts. We evaluate
MoE-X on chess and natural language tasks, showing that it achieves performance
comparable to dense models while significantly improving interpretability.
MoE-X achieves a perplexity better than GPT-2, with interpretability surpassing
even sparse autoencoder (SAE)-based approaches.Summary
AI-Generated Summary