Los Transformers Pueden Representar Modelos de Lenguaje n-gram
Transformers Can Represent n-gram Language Models
April 23, 2024
Autores: Anej Svete, Ryan Cotterell
cs.AI
Resumen
Numerosos trabajos existentes han analizado las capacidades de la arquitectura transformer describiendo su capacidad de representación mediante modelos formales de computación. Sin embargo, el enfoque hasta ahora ha estado en analizar la arquitectura en términos de aceptación de lenguajes. Sostenemos que este es un problema poco adecuado en el estudio de los modelos de lenguaje (LMs), que por definición son distribuciones de probabilidad sobre cadenas. En este artículo, nos centramos en la relación entre los LMs transformer y los LMs n-gram, una clase de modelos de lenguaje simple y históricamente relevante. Demostramos que los LMs transformer que utilizan mecanismos de atención dura o dispersa pueden representar exactamente cualquier LM n-gram, lo que nos proporciona un límite inferior concreto sobre su capacidad de representación probabilística. Esto constituye un primer paso hacia la comprensión de los mecanismos que los LMs transformer pueden utilizar para representar distribuciones de probabilidad sobre cadenas.
English
Plenty of existing work has analyzed the abilities of the transformer
architecture by describing its representational capacity with formal models of
computation. However, the focus so far has been on analyzing the architecture
in terms of language acceptance. We contend that this is an ill-suited
problem in the study of language models (LMs), which are definitionally
probability distributions over strings. In this paper, we focus on the
relationship between transformer LMs and n-gram LMs, a simple and
historically relevant class of language models. We show that transformer LMs
using the hard or sparse attention mechanisms can exactly represent any
n-gram LM, giving us a concrete lower bound on their probabilistic
representational capacity. This provides a first step towards understanding the
mechanisms that transformer LMs can use to represent probability distributions
over strings.