モネ: トランスフォーマー向けの一義的専門家の混合
Monet: Mixture of Monosemantic Experts for Transformers
December 5, 2024
著者: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI
要旨
大規模言語モデル(LLM)の内部計算を理解することは、それらを人間の価値と一致させ、有害な行動(例:有毒コンテンツの生成)を防ぐために重要です。しかし、機械的な解釈可能性は、個々のニューロンが複数の無関係な概念に反応する多義性によって妨げられています。Sparse Autoencoders(SAEs)は、疎な辞書学習を通じてこれらの特徴を分離しようと試みてきましたが、事後再構成損失に依存することでLLMのパフォーマンスが損なわれてきました。この問題に対処するために、私たちはTransformers向けのMixture of Monosemantic Experts(Monet)アーキテクチャを導入します。Monetは、疎な辞書学習をエンドツーエンドの専門家の混合事前トレーニングに直接組み込むものです。私たちの新しい専門家分解手法により、各層あたりの専門家数を262,144までスケーリングし、合計パラメータは専門家数の平方根に比例してスケーリングします。私たちの分析は、専門家間の知識の相互排他性を示し、個々の専門家に包括されたパラメトリックな知識を披露しています。さらに、Monetは、一般的なパフォーマンスを低下させることなく、ドメイン、言語、有害性の緩和にわたる知識操作を可能にします。透明なLLMの追求は、専門家数をスケーリングして機械的な解釈可能性を向上させ、内部知識を直接切り取ってモデルの振る舞いを根本的に調整する可能性を示しています。ソースコードと事前トレーニング済みのチェックポイントは、https://github.com/dmis-lab/Monet で入手可能です。
English
Understanding the internal computations of large language models (LLMs) is
crucial for aligning them with human values and preventing undesirable
behaviors like toxic content generation. However, mechanistic interpretability
is hindered by polysemanticity -- where individual neurons respond to multiple,
unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to
disentangle these features through sparse dictionary learning, they have
compromised LLM performance due to reliance on post-hoc reconstruction loss. To
address this issue, we introduce Mixture of Monosemantic Experts for
Transformers (Monet) architecture, which incorporates sparse dictionary
learning directly into end-to-end Mixture-of-Experts pretraining. Our novel
expert decomposition method enables scaling the expert count to 262,144 per
layer while total parameters scale proportionally to the square root of the
number of experts. Our analyses demonstrate mutual exclusivity of knowledge
across experts and showcase the parametric knowledge encapsulated within
individual experts. Moreover, Monet allows knowledge manipulation over domains,
languages, and toxicity mitigation without degrading general performance. Our
pursuit of transparent LLMs highlights the potential of scaling expert counts
to enhance} mechanistic interpretability and directly resect the internal
knowledge to fundamentally adjust} model behavior. The source code and
pretrained checkpoints are available at https://github.com/dmis-lab/Monet.Summary
AI-Generated Summary