Трансформеры могут представлять языковые модели n-грамм.
Transformers Can Represent n-gram Language Models
April 23, 2024
Авторы: Anej Svete, Ryan Cotterell
cs.AI
Аннотация
Множество существующих работ анализируют способности архитектуры трансформера, описывая ее репрезентативную способность с помощью формальных моделей вычислений. Однако до сих пор основное внимание уделялось анализу архитектуры с точки зрения приемлемости языка. Мы считаем, что это неподходящая проблема в изучении языковых моделей (ЯМ), которые по определению являются вероятностными распределениями над строками. В данной статье мы сосредотачиваемся на взаимосвязи между трансформерными ЯМ и ЯМ n-грамм, простым и исторически значимым классом языковых моделей. Мы показываем, что трансформерные ЯМ, использующие жесткие или разреженные механизмы внимания, могут точно представлять любую ЯМ n-грамм, давая нам конкретную нижнюю границу их вероятностной репрезентативной способности. Это является первым шагом к пониманию механизмов, которые трансформерные ЯМ могут использовать для представления вероятностных распределений над строками.
English
Plenty of existing work has analyzed the abilities of the transformer
architecture by describing its representational capacity with formal models of
computation. However, the focus so far has been on analyzing the architecture
in terms of language acceptance. We contend that this is an ill-suited
problem in the study of language models (LMs), which are definitionally
probability distributions over strings. In this paper, we focus on the
relationship between transformer LMs and n-gram LMs, a simple and
historically relevant class of language models. We show that transformer LMs
using the hard or sparse attention mechanisms can exactly represent any
n-gram LM, giving us a concrete lower bound on their probabilistic
representational capacity. This provides a first step towards understanding the
mechanisms that transformer LMs can use to represent probability distributions
over strings.Summary
AI-Generated Summary