Monet: Mengsel van Monosemante Experts voor Transformers
Monet: Mixture of Monosemantic Experts for Transformers
December 5, 2024
Auteurs: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI
Samenvatting
Het begrijpen van de interne berekeningen van grote taalmodellen (LLM's) is cruciaal om ze af te stemmen op menselijke waarden en ongewenst gedrag zoals het genereren van giftige inhoud te voorkomen. Mechanistische interpreteerbaarheid wordt echter belemmerd door polysemie - waar individuele neuronen reageren op meerdere, niet-gerelateerde concepten. Terwijl Schaarse Auto-encoders (SAE's) hebben geprobeerd om deze kenmerken te ontwarren door middel van schaars woordenboekleren, hebben ze de prestaties van LLM's aangetast vanwege de afhankelijkheid van post-hoc reconstructieverlies. Om dit probleem aan te pakken, introduceren we de Architectuur van Mengeling van Monosematische Experts voor Transformers (Monet), die schaars woordenboekleren rechtstreeks opneemt in end-to-end Mixture-of-Experts pretraining. Onze nieuwe expertdecompositiemethode maakt het mogelijk om het aantal experts per laag op te schalen naar 262.144, terwijl de totale parameters evenredig schalen met de vierkantswortel van het aantal experts. Onze analyses tonen de onderlinge exclusiviteit van kennis tussen experts aan en laten de parametrische kennis zien die is ingekapseld in individuele experts. Bovendien maakt Monet kennismanipulatie mogelijk over domeinen, talen en toxiciteitsvermindering zonder de algemene prestaties te verslechteren. Onze zoektocht naar transparante LLM's benadrukt het potentieel van het opschalen van het aantal experts om mechanistische interpreteerbaarheid te verbeteren en de interne kennis rechtstreeks aan te passen om het modelgedrag fundamenteel aan te passen. De broncode en vooraf getrainde checkpoints zijn beschikbaar op https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is
crucial for aligning them with human values and preventing undesirable
behaviors like toxic content generation. However, mechanistic interpretability
is hindered by polysemanticity -- where individual neurons respond to multiple,
unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to
disentangle these features through sparse dictionary learning, they have
compromised LLM performance due to reliance on post-hoc reconstruction loss. To
address this issue, we introduce Mixture of Monosemantic Experts for
Transformers (Monet) architecture, which incorporates sparse dictionary
learning directly into end-to-end Mixture-of-Experts pretraining. Our novel
expert decomposition method enables scaling the expert count to 262,144 per
layer while total parameters scale proportionally to the square root of the
number of experts. Our analyses demonstrate mutual exclusivity of knowledge
across experts and showcase the parametric knowledge encapsulated within
individual experts. Moreover, Monet allows knowledge manipulation over domains,
languages, and toxicity mitigation without degrading general performance. Our
pursuit of transparent LLMs highlights the potential of scaling expert counts
to enhance} mechanistic interpretability and directly resect the internal
knowledge to fundamentally adjust} model behavior. The source code and
pretrained checkpoints are available at https://github.com/dmis-lab/Monet.