Infini-gram mini: Exacte n-gram zoekopdrachten op internetschaal met FM-Index
Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index
June 13, 2025
Auteurs: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI
Samenvatting
Taalmodellen worden voornamelijk getraind op enorme hoeveelheden tekstgegevens van het internet, en het wordt steeds belangrijker om deze gegevensbron te begrijpen. Exact-match zoekmachines maken het mogelijk om in grote tekstcorpora te zoeken — het tellen van stringvoorkomens en het ophalen van de bijbehorende documenten — maar de hoge opslagoverhead belemmert hun toepassing op internet-schaal gegevens. Wij presenteren Infini-gram mini, een efficiënt en schaalbaar systeem dat petabyte-niveau tekstcorpora doorzoekbaar kan maken. Gebaseerd op de FM-index datastructuur (Ferragina en Manzini, 2000), die tekst tegelijkertijd indexeert en comprimeert, creëert ons systeem indexen met een grootte van slechts 44% van het corpus. Infini-gram mini verbetert aanzienlijk op de beste bestaande implementatie van FM-index wat betreft indexeringssnelheid (18 keer) en geheugengebruik tijdens zowel indexering (3,2 keer reductie) als querying (tot een verwaarloosbare hoeveelheid). We indexeren 46TB internettekst in 50 dagen met een enkele 128-core CPU-node (of 19 uur als 75 van dergelijke nodes worden gebruikt). We tonen een belangrijk gebruiksvoorbeeld van Infini-gram mini in een grootschalige analyse van benchmarkvervuiling. We ontdekken dat verschillende kern-LM-evaluatiebenchmarks sterk vervuild zijn in internetcrawls (tot 40% in SQuAD), wat kan leiden tot een overschatting van de capaciteiten van taalmodellen als ze op dergelijke gegevens worden getraind. We hosten een bulletin over benchmarkvervuiling om de vervuilingsgraad van veel kern- en door de gemeenschap bijgedragen benchmarks te delen. We geven ook een webinterface en een API-eindpunt vrij om algemene zoekopdrachten op Infini-gram mini-indexen te bedienen.
English
Language models are trained mainly on massive text data from the Internet,
and it becomes increasingly important to understand this data source.
Exact-match search engines enable searching in large text corpora -- counting
string appearances and retrieving the enclosing documents -- yet the high
storage overhead hinders their application on Internet-scale data. We present
Infini-gram mini, an efficient and scalable system that can make petabyte-level
text corpora searchable. Based on the FM-index data structure (Ferragina and
Manzini, 2000), which simultaneously indexes and compresses text, our system
creates indexes with size only 44% of the corpus. Infini-gram mini greatly
improves upon the best existing implementation of FM-index in terms of indexing
speed (18times) and memory use during both indexing (3.2times reduction)
and querying (down to a negligible amount). We index 46TB of Internet text in
50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes).
We show one important use case of Infini-gram mini in a large-scale analysis of
benchmark contamination. We find several core LM evaluation benchmarks to be
heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead
to overestimating the capabilities of language models if trained on such data.
We host a benchmark contamination bulletin to share the contamination rate of
many core and community-contributed benchmarks. We also release a web interface
and an API endpoint to serve general search queries on Infini-gram mini
indexes.