Variabele-breedte Transformers

Samenvatting

Het schalen van modelgrootte, met name diepte en breedte, heeft aanzienlijke vooruitgang mogelijk gemaakt in op transformatoren gebaseerde taalmodellen. De meeste architecturen handhaven echter een constante breedte over alle lagen, waarbij een vast parameter- en rekenbudget gelijkmatig wordt toegewezen, ondanks dat verschillende lagen mogelijk uiteenlopende computationele rollen vervullen. In dit werk onderzoeken we empirisch niet-uniforme capaciteitstoewijzing over de netwerkdiepte door een zandlopervormige > <former architectuur voor te stellen. Dit ontwerp handhaaft bredere vroege en late lagen terwijl de middelste lagen smaller worden, gebruikmakend van een parameter-vrij residu herschalingsmechanisme. Over alleen-decoder taalmodellen variërend van 200M tot 2B parameters (dicht) en 3B parameters (MoE) presteert onze > <former consequent beter dan parameter-gematchte uniforme basislijnen op taalmodelleringsverlies. Door de gemiddelde laagbreedte te verlagen, vereist deze architectuur ook minder totale FLOPs (22% reductie onder gefitte verlies-gematchte schalingscurven) en kleiner KV-cachegeheugen en I/O-kosten (15% reductie). In de analyse tonen we aan dat deze knelpuntsstructuur leidt tot kwalitatief andere representaties in residustromen. Over het geheel genomen tonen onze resultaten aan dat niet-uniforme breedtetoewijzing kan leiden tot een meer resource-optimaal schalen van taalmodellen.

English

Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a times-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.