Les Transformers peuvent représenter des modèles de langage n-grammes.

papers.abstract

De nombreux travaux existants ont analysé les capacités de l'architecture transformer en décrivant sa capacité de représentation à l'aide de modèles formels de calcul. Cependant, l'accent a jusqu'à présent été mis sur l'analyse de l'architecture en termes d'acceptation de langage. Nous soutenons qu'il s'agit d'un problème mal adapté à l'étude des modèles de langage (LMs), qui sont par définition des distributions de probabilité sur des chaînes de caractères. Dans cet article, nous nous concentrons sur la relation entre les LMs transformer et les LMs n-grammes, une classe de modèles de langage simple et historiquement pertinente. Nous montrons que les LMs transformer utilisant des mécanismes d'attention dure ou sparse peuvent représenter exactement n'importe quel LM n-gramme, ce qui nous donne une borne inférieure concrète sur leur capacité de représentation probabiliste. Cela constitue une première étape vers la compréhension des mécanismes que les LMs transformer peuvent utiliser pour représenter des distributions de probabilité sur des chaînes de caractères.

English

Plenty of existing work has analyzed the abilities of the transformer architecture by describing its representational capacity with formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language acceptance. We contend that this is an ill-suited problem in the study of language models (LMs), which are definitionally probability distributions over strings. In this paper, we focus on the relationship between transformer LMs and n-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any n-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.

Les Transformers peuvent représenter des modèles de langage n-grammes.

Transformers Can Represent n-gram Language Models

papers.abstract

Support