Трансформеры с переменной шириной

Аннотация

Масштабирование размера модели, в частности глубины и ширины, обеспечило значительный прогресс в трансформерных языковых моделях. Однако большинство архитектур сохраняют постоянную ширину на всех уровнях, равномерно распределяя фиксированный бюджет параметров и вычислений, несмотря на то что разные слои могут играть различные вычислительные роли. В данной работе мы эмпирически исследуем неравномерное распределение ёмкости по глубине сети, предлагая архитектуру в форме песочных часов > <former. Эта конструкция поддерживает более широкие ранние и поздние слои, сужая средние, и использует непараметрический механизм изменения размера остаточных потоков. Для языковых моделей только с декодером в диапазоне от 200 млн до 2 млрд параметров (плотные) и 3 млрд параметров (MoE) наш > <former стабильно превосходит однородные базовые модели с тем же числом параметров по метрике потерь при языковом моделировании. За счёт уменьшения средней ширины слоёв данная архитектура также требует меньше общих FLOPs (22% сокращения в рамках согласованных кривых масштабирования по потерям с подгонкой) и меньшего объема памяти KV-кэша и затрат на ввод-вывод (15% сокращения). В ходе анализа мы показываем, что такая структура типа узкого горлышка приводит к качественно различным представлениям в остаточных потоках. В целом, наши результаты демонстрируют, что неравномерное распределение ширины может обеспечить более ресурсно-оптимальное масштабирование языковых моделей.

English

Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a times-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.