Infini-gram mini: Exacte n-gram zoekopdrachten op internetschaal met FM-Index

Samenvatting

Taalmodellen worden voornamelijk getraind op enorme hoeveelheden tekstgegevens van het internet, en het wordt steeds belangrijker om deze gegevensbron te begrijpen. Exact-match zoekmachines maken het mogelijk om in grote tekstcorpora te zoeken — het tellen van stringvoorkomens en het ophalen van de bijbehorende documenten — maar de hoge opslagoverhead belemmert hun toepassing op internet-schaal gegevens. Wij presenteren Infini-gram mini, een efficiënt en schaalbaar systeem dat petabyte-niveau tekstcorpora doorzoekbaar kan maken. Gebaseerd op de FM-index datastructuur (Ferragina en Manzini, 2000), die tekst tegelijkertijd indexeert en comprimeert, creëert ons systeem indexen met een grootte van slechts 44% van het corpus. Infini-gram mini verbetert aanzienlijk op de beste bestaande implementatie van FM-index wat betreft indexeringssnelheid (18 keer) en geheugengebruik tijdens zowel indexering (3,2 keer reductie) als querying (tot een verwaarloosbare hoeveelheid). We indexeren 46TB internettekst in 50 dagen met een enkele 128-core CPU-node (of 19 uur als 75 van dergelijke nodes worden gebruikt). We tonen een belangrijk gebruiksvoorbeeld van Infini-gram mini in een grootschalige analyse van benchmarkvervuiling. We ontdekken dat verschillende kern-LM-evaluatiebenchmarks sterk vervuild zijn in internetcrawls (tot 40% in SQuAD), wat kan leiden tot een overschatting van de capaciteiten van taalmodellen als ze op dergelijke gegevens worden getraind. We hosten een bulletin over benchmarkvervuiling om de vervuilingsgraad van veel kern- en door de gemeenschap bijgedragen benchmarks te delen. We geven ook een webinterface en een API-eindpunt vrij om algemene zoekopdrachten op Infini-gram mini-indexen te bedienen.

English

Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.

Infini-gram mini: Exacte n-gram zoekopdrachten op internetschaal met FM-Index

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

Samenvatting

Support