Infini-gram mini : Recherche exacte de n-grammes à l'échelle d'Internet avec l'index FM
Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index
June 13, 2025
Auteurs: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Résumé
Les modèles de langage sont principalement entraînés sur des données textuelles massives provenant d'Internet, et il devient de plus en plus important de comprendre cette source de données. Les moteurs de recherche par correspondance exacte permettent d'effectuer des recherches dans de grands corpus textuels — en comptant les occurrences de chaînes de caractères et en récupérant les documents les contenant —, mais leur surcharge de stockage élevée limite leur application à des données à l'échelle d'Internet. Nous présentons Infini-gram mini, un système efficace et évolutif capable de rendre consultables des corpus textuels de l'ordre du pétaoctet. Basé sur la structure de données FM-index (Ferragina et Manzini, 2000), qui indexe et compresse simultanément le texte, notre système crée des index dont la taille ne représente que 44 % du corpus. Infini-gram mini améliore considérablement la meilleure implémentation existante de FM-index en termes de vitesse d'indexation (18 fois plus rapide) et d'utilisation de la mémoire, que ce soit lors de l'indexation (réduction de 3,2 fois) ou de l'interrogation (jusqu'à une quantité négligeable). Nous avons indexé 46 To de texte Internet en 50 jours avec un seul nœud CPU à 128 cœurs (ou 19 heures en utilisant 75 de ces nœuds). Nous montrons un cas d'utilisation important d'Infini-gram mini dans une analyse à grande échelle de la contamination des benchmarks. Nous constatons que plusieurs benchmarks d'évaluation de modèles de langage sont fortement contaminés dans les crawls Internet (jusqu'à 40 % dans SQuAD), ce qui pourrait conduire à surestimer les capacités des modèles de langage s'ils sont entraînés sur de telles données. Nous hébergeons un bulletin de contamination des benchmarks pour partager le taux de contamination de nombreux benchmarks de base et contribués par la communauté. Nous mettons également à disposition une interface web et un point d'API pour répondre aux requêtes de recherche générales sur les index d'Infini-gram mini.
English
Language models are trained mainly on massive text data from the Internet,
and it becomes increasingly important to understand this data source.
Exact-match search engines enable searching in large text corpora -- counting
string appearances and retrieving the enclosing documents -- yet the high
storage overhead hinders their application on Internet-scale data. We present
Infini-gram mini, an efficient and scalable system that can make petabyte-level
text corpora searchable. Based on the FM-index data structure (Ferragina and
Manzini, 2000), which simultaneously indexes and compresses text, our system
creates indexes with size only 44% of the corpus. Infini-gram mini greatly
improves upon the best existing implementation of FM-index in terms of indexing
speed (18times) and memory use during both indexing (3.2times reduction)
and querying (down to a negligible amount). We index 46TB of Internet text in
50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes).
We show one important use case of Infini-gram mini in a large-scale analysis of
benchmark contamination. We find several core LM evaluation benchmarks to be
heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead
to overestimating the capabilities of language models if trained on such data.
We host a benchmark contamination bulletin to share the contamination rate of
many core and community-contributed benchmarks. We also release a web interface
and an API endpoint to serve general search queries on Infini-gram mini
indexes.