Transformadores Podem Representar Modelos de Linguagem n-gram
Transformers Can Represent n-gram Language Models
April 23, 2024
Autores: Anej Svete, Ryan Cotterell
cs.AI
Resumo
Muitos trabalhos existentes analisaram as capacidades da arquitetura transformer descrevendo sua capacidade de representação com modelos formais de computação. No entanto, o foco até agora tem sido analisar a arquitetura em termos de aceitação de linguagem. Argumentamos que este é um problema inadequado no estudo de modelos de linguagem (LMs), que são, por definição, distribuições de probabilidade sobre cadeias de caracteres. Neste artigo, focamos na relação entre LMs baseados em transformers e LMs n-gram, uma classe simples e historicamente relevante de modelos de linguagem. Mostramos que LMs baseados em transformers que utilizam mecanismos de atenção rígida ou esparsa podem representar exatamente qualquer LM n-gram, fornecendo-nos um limite inferior concreto sobre sua capacidade de representação probabilística. Isso representa um primeiro passo para entender os mecanismos que LMs baseados em transformers podem usar para representar distribuições de probabilidade sobre cadeias de caracteres.
English
Plenty of existing work has analyzed the abilities of the transformer
architecture by describing its representational capacity with formal models of
computation. However, the focus so far has been on analyzing the architecture
in terms of language acceptance. We contend that this is an ill-suited
problem in the study of language models (LMs), which are definitionally
probability distributions over strings. In this paper, we focus on the
relationship between transformer LMs and n-gram LMs, a simple and
historically relevant class of language models. We show that transformer LMs
using the hard or sparse attention mechanisms can exactly represent any
n-gram LM, giving us a concrete lower bound on their probabilistic
representational capacity. This provides a first step towards understanding the
mechanisms that transformer LMs can use to represent probability distributions
over strings.