Neubetrachtung der Formkonvention von Transformer-Sprachmodellen

Zusammenfassung

Dichte Transformer-Sprachmodelle folgten weitgehend einer konsistenten Architekturform: Jede Schicht besteht aus einem Attention-Modul, gefolgt von einem Feed-Forward-Netzwerk (FFN) mit einem schmal-breit-schmalen MLP, das den Großteil der Parameter dem MLP bei Expansionsverhältnissen zwischen 2 und 4 zuweist. Angeregt durch neuere Ergebnisse, die zeigen, dass residuale breit-schmal-breite (sanduhrförmige) MLPs überlegene Funktionsapproximationsfähigkeiten bieten, hinterfragen wir die langjährige Konvention der MLP-Form in Transformatoren und stellen die Notwendigkeit des schmal-breit-schmalen Designs infrage. Um dies zu untersuchen, entwickeln wir eine Transformervariante, die das konventionelle FFN durch ein tieferes, sanduhrförmiges FFN ersetzt, das aus einem Stapel sanduhrförmiger Sub-MLPs besteht, die durch residuale Pfade verbunden sind. Wir postulieren, dass ein tieferes, aber leichteres sanduhrförmiges FFN eine wettbewerbsfähige Alternative zum konventionellen FFN darstellen kann und dass die durch die Verwendung eines leichteren sanduhrförmigen FFNs eingesparten Parameter effektiver genutzt werden können, beispielsweise durch Vergrößern der versteckten Dimensionen des Modells bei festen Budgets. Wir bestätigen dies durch empirische Validierungen über verschiedene Modellgrößen hinweg: Sanduhr-FFNs übertreffen konventionelle FFNs bis zu 400M Parametern und erreichen vergleichbare Leistung bei größeren Skalen bis zu 1B Parametern; Sanduhr-FFN-Varianten mit reduzierten FFN- und erhöhten Attention-Parametern zeigen durchgängige Verbesserungen gegenüber konventionellen Konfigurationen bei gleichem Budget. Zusammengenommen werfen diese Erkenntnisse ein neues Licht auf aktuelle Arbeiten und regen ein Überdenken der schmal-breit-schmalen MLP-Konvention sowie des Gleichgewichts zwischen Attention und FFN im Hinblick auf effiziente und ausdrucksstarke moderne Sprachmodelle an.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Neubetrachtung der Formkonvention von Transformer-Sprachmodellen

Revisiting the Shape Convention of Transformer Language Models

Zusammenfassung

Support