ChatPaper.aiChatPaper

Transformer können n-Gramm-Sprachmodelle darstellen.

Transformers Can Represent n-gram Language Models

April 23, 2024
Autoren: Anej Svete, Ryan Cotterell
cs.AI

Zusammenfassung

Es gibt bereits viele Arbeiten, die die Fähigkeiten der Transformer-Architektur analysiert haben, indem sie ihre Repräsentationskapazität mit formalen Modellen der Berechnung beschreiben. Bisher lag der Fokus jedoch darauf, die Architektur hinsichtlich der Sprachakzeptanz zu analysieren. Wir sind der Meinung, dass dies ein ungeeignetes Problem in der Untersuchung von Sprachmodellen (LMs) ist, die definitionsgemäß Wahrscheinlichkeitsverteilungen über Zeichenfolgen sind. In diesem Artikel konzentrieren wir uns auf die Beziehung zwischen Transformer LMs und n-gram LMs, einer einfachen und historisch relevanten Klasse von Sprachmodellen. Wir zeigen, dass Transformer LMs mit den harten oder spärlichen Aufmerksamkeitsmechanismen jeden n-gram LM genau darstellen können, was uns eine konkrete untere Grenze für ihre probabilistische Repräsentationskapazität liefert. Dies stellt einen ersten Schritt dar, um die Mechanismen zu verstehen, die Transformer LMs verwenden können, um Wahrscheinlichkeitsverteilungen über Zeichenfolgen darzustellen.
English
Plenty of existing work has analyzed the abilities of the transformer architecture by describing its representational capacity with formal models of computation. However, the focus so far has been on analyzing the architecture in terms of language acceptance. We contend that this is an ill-suited problem in the study of language models (LMs), which are definitionally probability distributions over strings. In this paper, we focus on the relationship between transformer LMs and n-gram LMs, a simple and historically relevant class of language models. We show that transformer LMs using the hard or sparse attention mechanisms can exactly represent any n-gram LM, giving us a concrete lower bound on their probabilistic representational capacity. This provides a first step towards understanding the mechanisms that transformer LMs can use to represent probability distributions over strings.

Summary

AI-Generated Summary

PDF211December 15, 2024