ChatPaper.aiChatPaper

Monet: Mischung monosemantischer Experten für Transformer

Monet: Mixture of Monosemantic Experts for Transformers

December 5, 2024
Autoren: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI

Zusammenfassung

Das Verständnis der internen Berechnungen großer Sprachmodelle (LLMs) ist entscheidend, um sie mit menschlichen Werten in Einklang zu bringen und unerwünschte Verhaltensweisen wie die Erzeugung von toxischen Inhalten zu verhindern. Mechanistische Interpretierbarkeit wird jedoch durch Polysemie behindert - wo einzelne Neuronen auf mehrere, nicht zusammenhängende Konzepte reagieren. Während Sparse Autoencoder (SAEs) versucht haben, diese Merkmale durch spärliches Wörterbuchlernen zu entwirren, haben sie die Leistung von LLMs beeinträchtigt, da sie auf nachträglichen Rekonstruktionsverlust angewiesen sind. Um dieses Problem anzugehen, führen wir die Architektur Mixture of Monosemantic Experts for Transformers (Monet) ein, die das spärliche Wörterbuchlernen direkt in das end-to-end Mixture-of-Experts-Training integriert. Unsere neuartige Expertenzerlegungsmethode ermöglicht die Skalierung der Expertenzahl auf 262.144 pro Schicht, während die Gesamtparameter proportional zur Quadratwurzel der Anzahl der Experten skaliert werden. Unsere Analysen zeigen die gegenseitige Ausschließlichkeit des Wissens über Experten hinweg und präsentieren das parametrische Wissen, das in einzelnen Experten verkörpert ist. Darüber hinaus ermöglicht Monet die Manipulation von Wissen über Domänen, Sprachen und die Minderung von Toxizität, ohne die allgemeine Leistung zu beeinträchtigen. Unsere Bestrebungen, transparente LLMs zu schaffen, unterstreichen das Potenzial, die Anzahl der Experten zu skalieren, um die mechanistische Interpretierbarkeit zu verbessern und das interne Wissen direkt zu modifizieren, um das Verhalten des Modells grundlegend anzupassen. Der Quellcode und vortrainierte Checkpoints sind verfügbar unter https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is crucial for aligning them with human values and preventing undesirable behaviors like toxic content generation. However, mechanistic interpretability is hindered by polysemanticity -- where individual neurons respond to multiple, unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to disentangle these features through sparse dictionary learning, they have compromised LLM performance due to reliance on post-hoc reconstruction loss. To address this issue, we introduce Mixture of Monosemantic Experts for Transformers (Monet) architecture, which incorporates sparse dictionary learning directly into end-to-end Mixture-of-Experts pretraining. Our novel expert decomposition method enables scaling the expert count to 262,144 per layer while total parameters scale proportionally to the square root of the number of experts. Our analyses demonstrate mutual exclusivity of knowledge across experts and showcase the parametric knowledge encapsulated within individual experts. Moreover, Monet allows knowledge manipulation over domains, languages, and toxicity mitigation without degrading general performance. Our pursuit of transparent LLMs highlights the potential of scaling expert counts to enhance} mechanistic interpretability and directly resect the internal knowledge to fundamentally adjust} model behavior. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Monet.

Summary

AI-Generated Summary

PDF132December 6, 2024