Пересмотр конвенций формы языковых моделей-трансформеров

Аннотация

Плотные транссформаторные языковые модели в основном придерживались единой архитектурной схемы: каждый слой состоит из модуля внимания, за которым следует прямаяfeed-forward network, FFN) сеть с узко-широко-узким многослойным перцептрономMLP), где большая часть параметров сосредоточена в MLP с коэффициентом расширения от 2 до 4. Мотивируясь недавними результатами, показывающими, что резидуальные широко-узко-широкиеMLP в форме песочных часов) обладают превосходной способностью к аппроксимации функций, мы пересматриваем устоявшуюся конвенцию о форме MLP в трансформере, ставя под вопрос необходимость узко-широко-узкого дизайна. Для изучения этого вопроса мы разрабатываем вариант трансформера, который заменяет традиционную FFN на более глубокую FFN в форме песочных часов, состоящую из стека подобных песочным часам суб-MLP, соединенных резидуальными связями. Мы предполагаем, что более глубокая, но более легкая FFN в форме песочных часов может стать конкурентоспособной альтернативой традиционной FFN, а параметры, сэкономленные за счет использования более легкой FFN, могут быть использованы более эффективно, например, для увеличения скрытой размерности модели при фиксированном бюджете параметров. Мы подтверждаем это эмпирическими проверками на различных масштабах моделей: FFN в форме песочных часов превосходят традиционные FFN вплоть до 400 млн параметров и демонстрируют сопоставимую производительность на более крупных масштабах до 1 млрд параметров; варианты с FFN в форме песочных часов с уменьшенным количеством параметров в FFN и увеличенным — в механизме внимания показывают стабильное улучшение по сравнению с традиционными конфигурациями при сопоставимом бюджете. В совокупности эти результаты проливают новый свет на последние работы и побуждают к переосмыслению конвенции об узко-широко-узком MLP и баланса между вниманием и FFN для создания эффективных и выразительных современных языковых моделей.

English

Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.

Пересмотр конвенций формы языковых моделей-трансформеров

Revisiting the Shape Convention of Transformer Language Models

Аннотация

Support