Opnieuw bezien van de vormconventie van transformer-taalmodelstructuren

Samenvatting

Dichte Transformer-taalmodelle hebben grotendeels vastgehouden aan een consistente architectonische vorm: elke laag bestaat uit een aandachtmodule gevolgd door een feedforward-netwerk (FFN) met een smal-breed-smal MLP, waarbij de meeste parameters worden toegewezen aan de MLP met expansieverhoudingen tussen 2 en 4. Gemotiveerd door recente resultaten die aantonen dat residuele breed-smal-brede (zandloper) MLP's superieure functiebenaderingscapaciteiten bieden, heroverwegen we de lang bestaande conventie van de MLP-vorm in de Transformer, waarbij we de noodzaak van het smal-breed-smal ontwerp in twijfel trekken. Om dit te bestuderen, ontwikkelen we een Transformer-variant die het conventionele FFN vervangt door een dieper zandlopervormig FFN, bestaande uit een stapel zandlopersub-MLP's verbonden door residuele paden. Wij stellen dat een dieper maar lichter zandloper-FFN een competitief alternatief kan zijn voor het conventionele FFN, en dat parameters die worden bespaard door een lichter zandloper-FFN te gebruiken, effectiever kunnen worden benut, bijvoorbeeld door de verborgen dimensies van het model te vergroten binnen vaste budgetten. We bevestigen dit door empirische validaties op verschillende modelschalen: zandloper-FFN's presteren beter dan conventionele FFN's tot 400M parameters en bereiken vergelijkbare prestaties op grotere schalen tot 1B parameters; varianten van zandloper-FFN's met verminderde FFN- en verhoogde aandachtsparameters tonen consistente verbeteringen ten opzichte van conventionele configuraties bij gelijke budgetten. Samen werpen deze bevindingen een nieuw licht op recent werk en zetten aan tot een herbezinning op de smal-breed-smal MLP-conventie en de balans tussen aandacht en FFN, in de richting van efficiënte en expressieve moderne taalmodelle.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Opnieuw bezien van de vormconventie van transformer-taalmodelstructuren

Revisiting the Shape Convention of Transformer Language Models

Samenvatting

Support