Transformatoren mit variabler Breite

Zusammenfassung

Die Skalierung der Modellgröße, insbesondere der Tiefe und Breite, hat bedeutende Fortschritte bei Transformer-basierten Sprachmodellen ermöglicht. Allerdings behalten die meisten Architekturen eine konstante Breite über alle Schichten bei und verteilen ein festes Parameter- und Rechenbudget gleichmäßig, obwohl verschiedene Schichten möglicherweise unterschiedliche Rechenrollen spielen. In dieser Arbeit untersuchen wir empirisch eine ungleichmäßige Kapazitätszuweisung über die Netzwerktiefe hinweg, indem wir eine ><former-Architektur vorschlagen. Dieses Design hält die frühen und späten Schichten breiter, während die mittleren Schichten schmaler werden, wobei ein parameterfreier Residual-Resizing-Mechanismus zum Einsatz kommt. Über mehrere decoder-only Sprachmodelle mit 200 Mio. bis 2 Mrd. Parametern (dicht) und 3 Mrd. Parametern (MoE) hinweg übertrifft unser ><former durchgängig parameter-angepasste uniforme Basislinien im Hinblick auf den Sprachmodellierungsverlust. Durch die Reduzierung der durchschnittlichen Schichtbreite erfordert diese Architektur zudem insgesamt weniger FLOPs (22% Reduktion unter angepassten verlust-angepassten Skalierungskurven) sowie einen geringeren KV-Cache-Speicher und niedrigere E/A-Kosten (15% Reduktion). In der Analyse zeigen wir, dass diese Engpassstruktur zu qualitativ unterschiedlichen Repräsentationen in den Residualströmen führt. Insgesamt belegen unsere Ergebnisse, dass eine ungleichmäßige Breitenzuweisung zu einer ressourceneffizienteren Skalierung von Sprachmodellen führen kann.

English

Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a times-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.