ChatPaper.aiChatPaper

Monet: Mistura de Especialistas Monossêmicos para Transformers

Monet: Mixture of Monosemantic Experts for Transformers

December 5, 2024
Autores: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI

Resumo

Compreender as computações internas de grandes modelos de linguagem (LLMs) é crucial para alinhá-los com os valores humanos e prevenir comportamentos indesejados, como a geração de conteúdo tóxico. No entanto, a interpretabilidade mecanicista é prejudicada pela polissemia - onde neurônios individuais respondem a múltiplos conceitos não relacionados. Enquanto Autoencoders Esparsos (SAEs) tentaram desemaranhar essas características por meio do aprendizado de dicionário esparsos, comprometeram o desempenho do LLM devido à dependência de perda de reconstrução pós-hoc. Para abordar esse problema, apresentamos a arquitetura Mixture of Monosemantic Experts for Transformers (Monet), que incorpora o aprendizado de dicionário esparsos diretamente no pré-treinamento end-to-end Mixture-of-Experts. Nosso novo método de decomposição de especialistas permite escalar o número de especialistas para 262.144 por camada, enquanto os parâmetros totais escalam proporcionalmente à raiz quadrada do número de especialistas. Nossas análises demonstram a exclusividade mútua do conhecimento entre os especialistas e mostram o conhecimento paramétrico encapsulado dentro de cada especialista. Além disso, Monet permite a manipulação de conhecimento em diferentes domínios, idiomas e mitigação de toxicidade sem degradar o desempenho geral. Nossa busca por LLMs transparentes destaca o potencial de escalar o número de especialistas para aprimorar a interpretabilidade mecanicista e restringir diretamente o conhecimento interno para ajustar fundamentalmente o comportamento do modelo. O código-fonte e os checkpoints pré-treinados estão disponíveis em https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is crucial for aligning them with human values and preventing undesirable behaviors like toxic content generation. However, mechanistic interpretability is hindered by polysemanticity -- where individual neurons respond to multiple, unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to disentangle these features through sparse dictionary learning, they have compromised LLM performance due to reliance on post-hoc reconstruction loss. To address this issue, we introduce Mixture of Monosemantic Experts for Transformers (Monet) architecture, which incorporates sparse dictionary learning directly into end-to-end Mixture-of-Experts pretraining. Our novel expert decomposition method enables scaling the expert count to 262,144 per layer while total parameters scale proportionally to the square root of the number of experts. Our analyses demonstrate mutual exclusivity of knowledge across experts and showcase the parametric knowledge encapsulated within individual experts. Moreover, Monet allows knowledge manipulation over domains, languages, and toxicity mitigation without degrading general performance. Our pursuit of transparent LLMs highlights the potential of scaling expert counts to enhance} mechanistic interpretability and directly resect the internal knowledge to fundamentally adjust} model behavior. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Monet.

Summary

AI-Generated Summary

PDF132December 6, 2024