Вдруг! Простое и эффективное повторное использование параметров для смеси экспертов
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts
August 15, 2024
Авторы: Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli
cs.AI
Аннотация
Фреймворк Смеси Экспертов (MoE) стал популярной архитектурой для больших языковых моделей благодаря своей выдающейся производительности по сравнению с плотными моделями. Однако обучение MoE с нуля в крупномасштабном режиме является чрезмерно затратным. Существующие методы смягчают это, предварительно обучая несколько плотных экспертных моделей независимо и используя их для инициализации MoE. Это достигается путем использования прямой сети (FFN) экспертов для инициализации экспертов MoE, а также слияния других параметров. Однако этот метод ограничивает повторное использование параметров плотной модели только слоями FFN, тем самым ограничивая преимущества при "переработке" этих моделей в MoE. Мы предлагаем BAM (Branch-Attend-Mix), простой, но эффективный метод, который решает этот недостаток. BAM полностью использует специализированные плотные модели, не только используя их FFN для инициализации слоев MoE, но также полностью используя параметры внимания экспертов, инициализируя их в мягкую вариацию слоев Смеси Внимания (MoA). Мы исследуем два метода для повторного использования параметров внимания: 1) инициализация отдельных внимательных экспертов из плотных моделей, включая все параметры внимания для лучшей производительности модели; и 2) совместное использование ключевых и значимых параметров для всех экспертов для обеспечения лучшей эффективности вывода. Для дальнейшего улучшения эффективности мы принимаем параллельную архитектуру трансформера внимания для MoE, что позволяет экспертам внимания и экспертам FFN вычисляться параллельно. Наши эксперименты на исходных моделях от 590 миллионов до 2 миллиардов параметров показывают, что BAM превосходит базовые показатели как в перплексии, так и в производительности задач на следующем уровне, при тех же вычислительных и данных ограничениях.
English
The Mixture of Experts (MoE) framework has become a popular architecture for
large language models due to its superior performance over dense models.
However, training MoEs from scratch in a large-scale regime is prohibitively
expensive. Existing methods mitigate this by pre-training multiple dense expert
models independently and using them to initialize an MoE. This is done by using
experts' feed-forward network (FFN) to initialize the MoE's experts while
merging other parameters. However, this method limits the reuse of dense model
parameters to only the FFN layers, thereby constraining the advantages when
"upcycling" these models into MoEs. We propose BAM (Branch-Attend-Mix), a
simple yet effective method that addresses this shortcoming. BAM makes full use
of specialized dense models by not only using their FFN to initialize the MoE
layers but also leveraging experts' attention parameters fully by initializing
them into a soft-variant of Mixture of Attention (MoA) layers. We explore two
methods for upcycling attention parameters: 1) initializing separate attention
experts from dense models including all attention parameters for the best model
performance; and 2) sharing key and value parameters across all experts to
facilitate for better inference efficiency. To further improve efficiency, we
adopt a parallel attention transformer architecture to MoEs, which allows the
attention experts and FFN experts to be computed concurrently. Our experiments
on seed models ranging from 590 million to 2 billion parameters demonstrate
that BAM surpasses baselines in both perplexity and downstream task
performance, within the same computational and data constraints.