ChatPaper.aiChatPaper

Infini-gram mini : Recherche exacte de n-grammes à l'échelle d'Internet avec l'index FM

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

June 13, 2025
Auteurs: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Résumé

Les modèles de langage sont principalement entraînés sur des données textuelles massives provenant d'Internet, et il devient de plus en plus important de comprendre cette source de données. Les moteurs de recherche par correspondance exacte permettent d'effectuer des recherches dans de grands corpus textuels — en comptant les occurrences de chaînes de caractères et en récupérant les documents les contenant —, mais leur surcharge de stockage élevée limite leur application à des données à l'échelle d'Internet. Nous présentons Infini-gram mini, un système efficace et évolutif capable de rendre consultables des corpus textuels de l'ordre du pétaoctet. Basé sur la structure de données FM-index (Ferragina et Manzini, 2000), qui indexe et compresse simultanément le texte, notre système crée des index dont la taille ne représente que 44 % du corpus. Infini-gram mini améliore considérablement la meilleure implémentation existante de FM-index en termes de vitesse d'indexation (18 fois plus rapide) et d'utilisation de la mémoire, que ce soit lors de l'indexation (réduction de 3,2 fois) ou de l'interrogation (jusqu'à une quantité négligeable). Nous avons indexé 46 To de texte Internet en 50 jours avec un seul nœud CPU à 128 cœurs (ou 19 heures en utilisant 75 de ces nœuds). Nous montrons un cas d'utilisation important d'Infini-gram mini dans une analyse à grande échelle de la contamination des benchmarks. Nous constatons que plusieurs benchmarks d'évaluation de modèles de langage sont fortement contaminés dans les crawls Internet (jusqu'à 40 % dans SQuAD), ce qui pourrait conduire à surestimer les capacités des modèles de langage s'ils sont entraînés sur de telles données. Nous hébergeons un bulletin de contamination des benchmarks pour partager le taux de contamination de nombreux benchmarks de base et contribués par la communauté. Nous mettons également à disposition une interface web et un point d'API pour répondre aux requêtes de recherche générales sur les index d'Infini-gram mini.
English
Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
PDF32June 18, 2025