ChatPaper.aiChatPaper

Transformers kunnen n-gram taalmodelen representeren.

Transformers Can Represent n-gram Language Models

April 23, 2024
Auteurs: Anej Svete, Ryan Cotterell
cs.AI

Samenvatting

Veel bestaand werk heeft de mogelijkheden van de transformer-architectuur geanalyseerd door het representatievermogen ervan te beschrijven met formele modellen van berekening. Tot nu toe lag de focus echter op het analyseren van de architectuur in termen van taalacceptatie. Wij stellen dat dit een ongeschikt probleem is in de studie van taalmodelen (LMs), die per definitie waarschijnlijkheidsverdelingen over strings zijn. In dit artikel richten we ons op de relatie tussen transformer LMs en n-gram LMs, een eenvoudige en historisch relevante klasse van taalmodelen. We laten zien dat transformer LMs die gebruikmaken van harde of sparse aandachtmechanismen elk n-gram LM exact kunnen representeren, wat ons een concrete ondergrens geeft van hun probabilistische representatievermogen. Dit biedt een eerste stap naar het begrijpen van de mechanismen die transformer LMs kunnen gebruiken om waarschijnlijkheidsverdelingen over strings te representeren.
English
Plenty of existing work has analyzed the abilities of the transformer architecture by describing its representational capacity with formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language acceptance. We contend that this is an ill-suited problem in the study of language models (LMs), which are definitionally probability distributions over strings. In this paper, we focus on the relationship between transformer LMs and n-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any n-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.
PDF211December 15, 2024