Brainformers: Eenvoud Inruilen voor Efficiëntie

Samenvatting

Transformers staan centraal in de recente successen op het gebied van natuurlijke taalverwerking en computervisie. Transformers hebben een grotendeels uniforme backbone waarin lagen afwisselen tussen feed-forward en self-attention om een diep netwerk op te bouwen. Hier onderzoeken we deze ontwerpkeuze en ontdekken dat complexere blokken met verschillende permutaties van laag-primitieven efficiënter kunnen zijn. Gebruikmakend van dit inzicht ontwikkelen we een complex blok, genaamd Brainformer, dat bestaat uit diverse soorten lagen zoals sparsely gated feed-forward lagen, dense feed-forward lagen, attention lagen, en verschillende vormen van laagnormalisatie en activatiefuncties. Brainformer overtreft consequent de state-of-the-art dense en sparse Transformers, zowel in kwaliteit als efficiëntie. Een Brainformer-model met 8 miljard geactiveerde parameters per token toont een 2x snellere trainingsconvergentie en een 5x snellere staptijd in vergelijking met zijn GLaM-tegenhanger. In evaluaties van downstream taken demonstreert Brainformer ook een 3% hogere SuperGLUE-score na fine-tuning in vergelijking met GLaM met een vergelijkbaar aantal geactiveerde parameters. Tot slot presteert Brainformer aanzienlijk beter dan een Primer dense model dat is afgeleid met NAS, bij vergelijkbare berekeningen per token in fewshot-evaluaties.

English

Transformers are central to recent successes in natural language processing and computer vision. Transformers have a mostly uniform backbone where layers alternate between feed-forward and self-attention in order to build a deep network. Here we investigate this design choice and find that more complex blocks that have different permutations of layer primitives can be more efficient. Using this insight, we develop a complex block, named Brainformer, that consists of a diverse sets of layers such as sparsely gated feed-forward layers, dense feed-forward layers, attention layers, and various forms of layer normalization and activation functions. Brainformer consistently outperforms the state-of-the-art dense and sparse Transformers, in terms of both quality and efficiency. A Brainformer model with 8 billion activated parameters per token demonstrates 2x faster training convergence and 5x faster step time compared to its GLaM counterpart. In downstream task evaluation, Brainformer also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM with a similar number of activated parameters. Finally, Brainformer largely outperforms a Primer dense model derived with NAS with similar computation per token on fewshot evaluations.

Brainformers: Eenvoud Inruilen voor Efficiëntie

Brainformers: Trading Simplicity for Efficiency

Samenvatting

Support