Riconsiderare la Convenzione Strutturale dei Modelli Linguistici Trasformatori
Revisiting the Shape Convention of Transformer Language Models
February 6, 2026
Autori: Feng-Ting Liao, Meng-Hsi Chen, Guan-Ting Yi, Da-shan Shiu
cs.AI
Abstract
I modelli linguistici Transformer densi hanno largamente aderito a una forma architetturale coerente: ogni strato è composto da un modulo di attenzione seguito da una rete feed-forward (FFN) con un MLP di tipo stretto-ampio-stretto, che assegna la maggior parte dei parametri all'MLP con rapporti di espansione compresi tra 2 e 4. Sulla scia di risultati recenti che dimostrano come MLP residui di tipo ampio-stretto-ampio (a clessidra) offrano capacità di approssimazione di funzioni superiori, rivediamo la convenzione di lunga data sulla forma dell'MLP nei Transformer, mettendo in discussione la necessità del progetto stretto-ampio-stretto. Per studiare ciò, sviluppiamo una variante di Transformer che sostituisce la FFN convenzionale con una FFN più profonda a forma di clessidra, composta da una pila di sub-MLP a clessidra connessi da percorsi residui. Postuliamo che una FFN a clessidra più profonda ma più leggera possa rappresentare un'alternativa competitiva alla FFN convenzionale e che i parametri risparmiati utilizzando una FFN a clessidra più leggera possano essere utilizzati in modo più efficace, ad esempio ingrandendo le dimensioni nascoste del modello a parità di budget. Confermiamo ciò attraverso validazioni empiriche su diverse scale di modelli: le FFN a clessidra superano le FFN convenzionali fino a 400M di parametri e raggiungono prestazioni comparabili su scale maggiori fino a 1B di parametri; le varianti di FFN a clessidra con FFN ridotta e parametri di attenzione aumentati mostrano miglioramenti costanti rispetto alle configurazioni convenzionali a budget equivalente. Nel complesso, questi risultati gettano nuova luce sul lavoro recente e sollecitano una riconsiderazione della convenzione dell'MLP stretto-ampio-stretto e dell'equilibrio tra attenzione e FFN verso modelli linguistici moderni efficienti ed espressivi.
English
Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.