Les Transformers peuvent représenter des modèles de langage n-grammes.
Transformers Can Represent n-gram Language Models
April 23, 2024
Auteurs: Anej Svete, Ryan Cotterell
cs.AI
Résumé
De nombreux travaux existants ont analysé les capacités de l'architecture transformer en décrivant sa capacité de représentation à l'aide de modèles formels de calcul. Cependant, l'accent a jusqu'à présent été mis sur l'analyse de l'architecture en termes d'acceptation de langage. Nous soutenons qu'il s'agit d'un problème mal adapté à l'étude des modèles de langage (LMs), qui sont par définition des distributions de probabilité sur des chaînes de caractères. Dans cet article, nous nous concentrons sur la relation entre les LMs transformer et les LMs n-grammes, une classe de modèles de langage simple et historiquement pertinente. Nous montrons que les LMs transformer utilisant des mécanismes d'attention dure ou sparse peuvent représenter exactement n'importe quel LM n-gramme, ce qui nous donne une borne inférieure concrète sur leur capacité de représentation probabiliste. Cela constitue une première étape vers la compréhension des mécanismes que les LMs transformer peuvent utiliser pour représenter des distributions de probabilité sur des chaînes de caractères.
English
Plenty of existing work has analyzed the abilities of the transformer
architecture by describing its representational capacity with formal models of
computation. However, the focus so far has been on analyzing the architecture
in terms of language acceptance. We contend that this is an ill-suited
problem in the study of language models (LMs), which are definitionally
probability distributions over strings. In this paper, we focus on the
relationship between transformer LMs and n-gram LMs, a simple and
historically relevant class of language models. We show that transformer LMs
using the hard or sparse attention mechanisms can exactly represent any
n-gram LM, giving us a concrete lower bound on their probabilistic
representational capacity. This provides a first step towards understanding the
mechanisms that transformer LMs can use to represent probability distributions
over strings.Summary
AI-Generated Summary