Brainformer: Einfachheit gegen Effizienz eintauschen
Brainformers: Trading Simplicity for Efficiency
May 29, 2023
Autoren: Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang, Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le, Claire Cui, James Laundon, Jeff Dean
cs.AI
Zusammenfassung
Transformer sind zentral für die jüngsten Erfolge in der natürlichen Sprachverarbeitung und der Computer Vision. Transformer verfügen über ein weitgehend einheitliches Grundgerüst, in dem Schichten zwischen Feed-Forward- und Self-Attention-Layern abwechseln, um ein tiefes Netzwerk aufzubauen. Hier untersuchen wir diese Designentscheidung und stellen fest, dass komplexere Blöcke mit unterschiedlichen Permutationen von Schichtprimitiven effizienter sein können. Aufbauend auf dieser Erkenntnis entwickeln wir einen komplexen Block namens Brainformer, der aus einer Vielzahl von Schichten besteht, wie beispielsweise spärlich gated Feed-Forward-Schichten, dichte Feed-Forward-Schichten, Attention-Schichten sowie verschiedenen Formen von Layer-Normalisierung und Aktivierungsfunktionen. Brainformer übertrifft durchweg die modernsten dichten und spärlichen Transformer sowohl in Bezug auf Qualität als auch Effizienz. Ein Brainformer-Modell mit 8 Milliarden aktivierten Parametern pro Token zeigt eine 2x schnellere Trainingskonvergenz und eine 5x schnellere Schrittzeit im Vergleich zu seinem GLaM-Pendant. Bei der Bewertung von Downstream-Aufgaben erzielt Brainformer ebenfalls eine 3 % höhere SuperGLUE-Punktzahl mit Feinabstimmung im Vergleich zu GLaM mit einer ähnlichen Anzahl aktivierter Parameter. Schließlich übertrifft Brainformer deutlich ein Primer-Dichtemodell, das mit NAS abgeleitet wurde, bei Few-Shot-Evaluierungen bei ähnlicher Berechnung pro Token.
English
Transformers are central to recent successes in natural language processing
and computer vision. Transformers have a mostly uniform backbone where layers
alternate between feed-forward and self-attention in order to build a deep
network. Here we investigate this design choice and find that more complex
blocks that have different permutations of layer primitives can be more
efficient. Using this insight, we develop a complex block, named Brainformer,
that consists of a diverse sets of layers such as sparsely gated feed-forward
layers, dense feed-forward layers, attention layers, and various forms of layer
normalization and activation functions. Brainformer consistently outperforms
the state-of-the-art dense and sparse Transformers, in terms of both quality
and efficiency. A Brainformer model with 8 billion activated parameters per
token demonstrates 2x faster training convergence and 5x faster step time
compared to its GLaM counterpart. In downstream task evaluation, Brainformer
also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM
with a similar number of activated parameters. Finally, Brainformer largely
outperforms a Primer dense model derived with NAS with similar computation per
token on fewshot evaluations.