Brainformers: Обмен простоты на эффективность
Brainformers: Trading Simplicity for Efficiency
May 29, 2023
Авторы: Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang, Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le, Claire Cui, James Laundon, Jeff Dean
cs.AI
Аннотация
Трансформеры играют ключевую роль в последних достижениях в области обработки естественного языка и компьютерного зрения. Трансформеры имеют в основном однородную архитектуру, где слои чередуются между полносвязными и слоями самовнимания для построения глубокой сети. В данной работе мы исследуем этот выбор архитектуры и обнаруживаем, что более сложные блоки с различными комбинациями базовых слоев могут быть более эффективными. Используя это наблюдение, мы разрабатываем сложный блок под названием Brainformer, который состоит из разнообразных слоев, таких как разреженно управляемые полносвязные слои, плотные полносвязные слои, слои внимания, а также различные формы нормализации слоев и функций активации. Brainformer стабильно превосходит современные плотные и разреженные трансформеры как по качеству, так и по эффективности. Модель Brainformer с 8 миллиардами активируемых параметров на токен демонстрирует в 2 раза более быструю сходимость при обучении и в 5 раз более быстрое время выполнения шага по сравнению с аналогом GLaM. В оценке на задачах дообучения Brainformer также показывает на 3% более высокий результат на тесте SuperGLUE по сравнению с GLaM при схожем количестве активируемых параметров. Наконец, Brainformer значительно превосходит плотную модель Primer, полученную с помощью нейроархитектурного поиска (NAS), при схожих вычислительных затратах на токен в задачах немногих примеров (few-shot).
English
Transformers are central to recent successes in natural language processing
and computer vision. Transformers have a mostly uniform backbone where layers
alternate between feed-forward and self-attention in order to build a deep
network. Here we investigate this design choice and find that more complex
blocks that have different permutations of layer primitives can be more
efficient. Using this insight, we develop a complex block, named Brainformer,
that consists of a diverse sets of layers such as sparsely gated feed-forward
layers, dense feed-forward layers, attention layers, and various forms of layer
normalization and activation functions. Brainformer consistently outperforms
the state-of-the-art dense and sparse Transformers, in terms of both quality
and efficiency. A Brainformer model with 8 billion activated parameters per
token demonstrates 2x faster training convergence and 5x faster step time
compared to its GLaM counterpart. In downstream task evaluation, Brainformer
also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM
with a similar number of activated parameters. Finally, Brainformer largely
outperforms a Primer dense model derived with NAS with similar computation per
token on fewshot evaluations.