Transformers de Largura Variável

Resumo

O escalonamento do tamanho do modelo, especificamente profundidade e largura, tem impulsionado avanços significativos em modelos de linguagem baseados em transformers. No entanto, a maioria das arquiteturas mantém uma largura constante em todas as camadas, alocando um orçamento fixo de parâmetros e computação de forma uniforme, embora camadas diferentes possam desempenhar papéis computacionais distintos. Neste trabalho, investigamos empiricamente a alocação não uniforme de capacidade ao longo da profundidade da rede, propondo uma arquitetura em formato de ampulheta (> <former). Esse design mantém camadas mais largas no início e no final, enquanto estreita as camadas intermediárias, utilizando um mecanismo de redimensionamento residual sem parâmetros. Em modelos de linguagem apenas com decodificador, variando de 200M a 2B parâmetros (densos) e 3B parâmetros (MoE), nosso > <former supera consistentemente as linhas de base uniformes com número de parâmetros correspondente na perda de modelagem de linguagem. Ao reduzir a largura média das camadas, essa arquitetura também exige menos FLOPs totais (redução de 22% sob curvas de escalonamento ajustadas à perda correspondente) e menor memória cache KV e custo de E/S (redução de 15%). Na análise, mostramos que essa estrutura de gargalo resulta em representações qualitativamente diferentes nos fluxos residuais. No geral, nossos resultados demonstram que a alocação não uniforme de largura pode levar a um escalonamento mais eficiente em termos de recursos para modelos de linguagem.

English

Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a times-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.