Revisiter la convention de forme des modèles de langage Transformer

Résumé

Les modèles de langage Transformer denses ont largement adhéré à une architecture constante : chaque couche est constituée d'un module d'attention suivi d'un réseau feed-forward (FFN) avec un MLP de forme étroit-large-étroit, allouant la majorité des paramètres au MLP avec des taux d'expansion entre 2 et 4. Motivés par des résultats récents montrant que les MLPs résiduels large-étroit-large (en sablier) offrent de meilleures capacités d'approximation de fonctions, nous revisitons la convention de forme MLP de longue date dans les Transformers, en remettant en question la nécessité de la conception étroit-large-étroit. Pour étudier cela, nous développons une variante de Transformer qui remplace le FFN conventionnel par un FFN plus profond en forme de sablier, comprenant une pile de sous-MLPs en sablier connectés par des voies résiduelles. Nous postulons qu'un FFN en sablier plus profond mais plus léger peut constituer une alternative compétitive au FFN conventionnel, et que les paramètres économisés en utilisant un FFN en sablier plus léger peuvent être utilisés plus efficacement, par exemple en augmentant les dimensions cachées du modèle sous des budgets fixes. Nous confirmons cela par des validations empiriques à différentes échelles de modèles : les FFNs en sablier surpassent les FFNs conventionnels jusqu'à 400M de paramètres et obtiennent des performances comparables à des échelles plus grandes jusqu'à 1B de paramètres ; les variantes de FFN en sablier avec des paramètres FFN réduits et des paramètres d'attention augmentés montrent des améliorations constantes par rapport aux configurations conventionnelles à budgets égaux. Ensemble, ces résultats apportent un nouvel éclairage sur les travaux récents et incitent à reconsidérer la convention du MLP étroit-large-étroit et l'équilibre entre l'attention et le FFN pour des modèles de langage modernes à la fois efficaces et expressifs.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Revisiter la convention de forme des modèles de langage Transformer

Revisiting the Shape Convention of Transformer Language Models

Résumé

Support