Infini-gram : Mise à l’échelle de modèles de langage à n-grammes non bornés sur un billion de tokens

papers.abstract

Les modèles de langage à n-grammes sont-ils encore pertinents à l'ère des grands modèles de langage neuronaux (LLMs) ? Notre réponse est oui, et nous démontrons leur utilité à la fois dans l'analyse de texte et dans l'amélioration des LLMs neuronaux. Cependant, cela nécessite de moderniser les modèles à n-grammes sous deux aspects. Premièrement, nous les entraînons à la même échelle de données que les LLMs neuronaux — 1,4 trillion de tokens. Il s'agit du plus grand modèle à n-grammes jamais construit. Deuxièmement, les modèles à n-grammes existants utilisent un petit n, ce qui limite leurs performances ; nous permettons plutôt à n d'être arbitrairement grand, en introduisant un nouveau modèle de langage infty-gram avec backoff. Au lieu de pré-calculer les tables de comptage de n-grammes (ce qui serait très coûteux), nous développons un moteur nommé infini-gram — alimenté par des tableaux de suffixes — capable de calculer les probabilités infty-gram (ainsi que n-grammes avec n arbitraire) avec une latence de l'ordre de la milliseconde. Le cadre infty-gram et le moteur infini-gram nous permettent de mener de nombreuses analyses novatrices et intéressantes sur les textes écrits par l'homme et générés par machine : nous constatons que le modèle infty-gram présente une précision assez élevée pour la prédiction du token suivant (47 %), et peut compléter les LLMs neuronaux pour réduire considérablement leurs perplexités en modélisation du langage. Lors de l'analyse de textes générés par machine, nous observons également des irrégularités dans le niveau d'accord entre la machine et infty-gram par rapport à la longueur du suffixe, ce qui indique des lacunes dans le pré-entraînement des LLMs neuronaux et dans les embeddings positionnels des Transformers. Nous mettons en open source notre moteur infini-gram dans l'espoir de permettre davantage d'études sur la meilleure façon d'utiliser les informations textuelles extraites de grands corpus de texte.

English

Are n-gram language models still relevant in this era of neural large language models (LLMs)? Our answer is yes, and we show their values in both text analysis and improving neural LLMs. Yet this necessitates modernizing n-gram models in two aspects. First, we train them at the same data scale as neural LLMs -- 1.4 trillion tokens. This is the largest n-gram model ever built. Second, existing n-gram models use small n which hinders their performance; we instead allow n to be arbitrarily large, by introducing a new infty-gram LM with backoff. Instead of pre-computing n-gram count tables (which would be very expensive), we develop an engine named infini-gram -- powered by suffix arrays -- that can compute infty-gram (as well as n-gram with arbitrary n) probabilities with millisecond-level latency. The infty-gram framework and infini-gram engine enable us to conduct many novel and interesting analyses of human-written and machine-generated text: we find that the infty-gram LM has fairly high accuracy for next-token prediction (47%), and can complement neural LLMs to greatly reduce their language modeling perplexities. When analyzing machine-generated text, we also observe irregularities in the machine--infty-gram agreement level with respect to the suffix length, which indicates deficiencies in neural LLM pretraining and the positional embeddings of Transformers. We open-source our infini-gram engine in the hopes of enabling more study on how to best use verbatim information retrieved from large text corpora.

Infini-gram : Mise à l’échelle de modèles de langage à n-grammes non bornés sur un billion de tokens

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

papers.abstract

Support