Monet: Mezcla de Expertos Monosemánticos para Transformadores
Monet: Mixture of Monosemantic Experts for Transformers
December 5, 2024
Autores: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI
Resumen
Comprender las computaciones internas de los grandes modelos de lenguaje (LLMs) es crucial para alinearlos con los valores humanos y prevenir comportamientos no deseados como la generación de contenido tóxico. Sin embargo, la interpretabilidad mecanicista se ve obstaculizada por la polisemanticidad, donde neuronas individuales responden a múltiples conceptos no relacionados. Si bien los Autoencoders Escasos (SAEs) han intentado desentrañar estas características a través del aprendizaje de diccionarios escasos, han comprometido el rendimiento de los LLM debido a la dependencia de la pérdida de reconstrucción post-hoc. Para abordar este problema, presentamos la arquitectura Mixture of Monosemantic Experts for Transformers (Monet), que incorpora el aprendizaje de diccionarios escasos directamente en el preentrenamiento end-to-end de Mixture-of-Experts. Nuestro novedoso método de descomposición de expertos permite escalar el número de expertos a 262,144 por capa, mientras que los parámetros totales escalan proporcionalmente a la raíz cuadrada del número de expertos. Nuestros análisis demuestran la exclusividad mutua del conocimiento entre expertos y muestran el conocimiento paramétrico encapsulado dentro de cada experto. Además, Monet permite la manipulación del conocimiento sobre dominios, idiomas y mitigación de toxicidad sin degradar el rendimiento general. Nuestra búsqueda de LLMs transparentes destaca el potencial de escalar el número de expertos para mejorar la interpretabilidad mecanicista y resecar directamente el conocimiento interno para ajustar fundamentalmente el comportamiento del modelo. El código fuente y los puntos de control preentrenados están disponibles en https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is
crucial for aligning them with human values and preventing undesirable
behaviors like toxic content generation. However, mechanistic interpretability
is hindered by polysemanticity -- where individual neurons respond to multiple,
unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to
disentangle these features through sparse dictionary learning, they have
compromised LLM performance due to reliance on post-hoc reconstruction loss. To
address this issue, we introduce Mixture of Monosemantic Experts for
Transformers (Monet) architecture, which incorporates sparse dictionary
learning directly into end-to-end Mixture-of-Experts pretraining. Our novel
expert decomposition method enables scaling the expert count to 262,144 per
layer while total parameters scale proportionally to the square root of the
number of experts. Our analyses demonstrate mutual exclusivity of knowledge
across experts and showcase the parametric knowledge encapsulated within
individual experts. Moreover, Monet allows knowledge manipulation over domains,
languages, and toxicity mitigation without degrading general performance. Our
pursuit of transparent LLMs highlights the potential of scaling expert counts
to enhance} mechanistic interpretability and directly resect the internal
knowledge to fundamentally adjust} model behavior. The source code and
pretrained checkpoints are available at https://github.com/dmis-lab/Monet.Summary
AI-Generated Summary