ChatPaper.aiChatPaper

Monet: Смесь моносемантических экспертов для трансформеров

Monet: Mixture of Monosemantic Experts for Transformers

December 5, 2024
Авторы: Jungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang
cs.AI

Аннотация

Понимание внутренних вычислений больших языковых моделей (LLM) критически важно для их согласования с человеческими ценностями и предотвращения нежелательных поведенческих аспектов, таких как генерация токсичного контента. Однако механистическая интерпретируемость затруднена полисемией, когда отдельные нейроны реагируют на несколько несвязанных концепций. В то время как разреженные автокодировщики (SAE) пытались разделить эти характеристики через разреженное обучение словаря, они компрометировали производительность LLM из-за зависимости от постобработки функции потерь восстановления. Для решения этой проблемы мы представляем архитектуру Mixture of Monosemantic Experts for Transformers (Monet), которая интегрирует разреженное обучение словаря непосредственно в предварительное обучение Mixture-of-Experts end-to-end. Наш новый метод декомпозиции экспертов позволяет масштабировать количество экспертов до 262 144 на слой, в то время как общее количество параметров масштабируется пропорционально квадратному корню от количества экспертов. Наши анализы демонстрируют взаимоисключающую природу знаний между экспертами и показывают параметрическое знание, заключенное в отдельных экспертах. Более того, Monet позволяет манипулировать знаниями в различных областях, языках и смягчать токсичность без ухудшения общей производительности. Наша работа по созданию прозрачных LLM подчеркивает потенциал увеличения количества экспертов для улучшения механистической интерпретируемости и прямого изменения внутренних знаний для фундаментальной коррекции поведения модели. Исходный код и предварительно обученные контрольные точки доступны по адресу https://github.com/dmis-lab/Monet.
English
Understanding the internal computations of large language models (LLMs) is crucial for aligning them with human values and preventing undesirable behaviors like toxic content generation. However, mechanistic interpretability is hindered by polysemanticity -- where individual neurons respond to multiple, unrelated concepts. While Sparse Autoencoders (SAEs) have attempted to disentangle these features through sparse dictionary learning, they have compromised LLM performance due to reliance on post-hoc reconstruction loss. To address this issue, we introduce Mixture of Monosemantic Experts for Transformers (Monet) architecture, which incorporates sparse dictionary learning directly into end-to-end Mixture-of-Experts pretraining. Our novel expert decomposition method enables scaling the expert count to 262,144 per layer while total parameters scale proportionally to the square root of the number of experts. Our analyses demonstrate mutual exclusivity of knowledge across experts and showcase the parametric knowledge encapsulated within individual experts. Moreover, Monet allows knowledge manipulation over domains, languages, and toxicity mitigation without degrading general performance. Our pursuit of transparent LLMs highlights the potential of scaling expert counts to enhance} mechanistic interpretability and directly resect the internal knowledge to fundamentally adjust} model behavior. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Monet.

Summary

AI-Generated Summary

PDF132December 6, 2024