Riconsiderare la Convenzione Strutturale dei Modelli Linguistici Trasformatori

Abstract

I modelli linguistici Transformer densi hanno largamente aderito a una forma architetturale coerente: ogni strato è composto da un modulo di attenzione seguito da una rete feed-forward (FFN) con un MLP di tipo stretto-ampio-stretto, che assegna la maggior parte dei parametri all'MLP con rapporti di espansione compresi tra 2 e 4. Sulla scia di risultati recenti che dimostrano come MLP residui di tipo ampio-stretto-ampio (a clessidra) offrano capacità di approssimazione di funzioni superiori, rivediamo la convenzione di lunga data sulla forma dell'MLP nei Transformer, mettendo in discussione la necessità del progetto stretto-ampio-stretto. Per studiare ciò, sviluppiamo una variante di Transformer che sostituisce la FFN convenzionale con una FFN più profonda a forma di clessidra, composta da una pila di sub-MLP a clessidra connessi da percorsi residui. Postuliamo che una FFN a clessidra più profonda ma più leggera possa rappresentare un'alternativa competitiva alla FFN convenzionale e che i parametri risparmiati utilizzando una FFN a clessidra più leggera possano essere utilizzati in modo più efficace, ad esempio ingrandendo le dimensioni nascoste del modello a parità di budget. Confermiamo ciò attraverso validazioni empiriche su diverse scale di modelli: le FFN a clessidra superano le FFN convenzionali fino a 400M di parametri e raggiungono prestazioni comparabili su scale maggiori fino a 1B di parametri; le varianti di FFN a clessidra con FFN ridotta e parametri di attenzione aumentati mostrano miglioramenti costanti rispetto alle configurazioni convenzionali a budget equivalente. Nel complesso, questi risultati gettano nuova luce sul lavoro recente e sollecitano una riconsiderazione della convenzione dell'MLP stretto-ampio-stretto e dell'equilibrio tra attenzione e FFN verso modelli linguistici moderni efficienti ed espressivi.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Riconsiderare la Convenzione Strutturale dei Modelli Linguistici Trasformatori

Revisiting the Shape Convention of Transformer Language Models

Abstract

Support