Infini-gram mini: Exakte n-Gramm-Suche im Internetmaßstab mit FM-Index

papers.abstract

Sprachmodelle werden hauptsächlich auf massiven Textdaten aus dem Internet trainiert, und es wird zunehmend wichtig, diese Datenquelle zu verstehen. Exakte-Treffer-Suchmaschinen ermöglichen die Suche in großen Textkorpora – das Zählen von Zeichenkettenvorkommen und das Abrufen der umschließenden Dokumente – doch der hohe Speicheraufwand behindert ihre Anwendung auf Internet-große Datenmengen. Wir präsentieren Infini-gram mini, ein effizientes und skalierbares System, das Petabyte-große Textkorpora durchsuchbar machen kann. Basierend auf der FM-Index-Datenstruktur (Ferragina und Manzini, 2000), die gleichzeitig Text indiziert und komprimiert, erstellt unser System Indizes mit einer Größe von nur 44 % des Korpus. Infini-gram mini verbessert die beste bestehende Implementierung des FM-Index erheblich in Bezug auf die Indizierungsgeschwindigkeit (18-fach) und den Speicherbedarf sowohl während der Indizierung (3,2-fache Reduktion) als auch während der Abfrage (auf einen vernachlässigbaren Betrag reduziert). Wir indizieren 46 TB Internet-Text in 50 Tagen mit einem einzigen 128-Core-CPU-Knoten (oder 19 Stunden bei Verwendung von 75 solcher Knoten). Wir zeigen einen wichtigen Anwendungsfall von Infini-gram mini in einer groß angelegten Analyse von Benchmark-Kontamination. Wir stellen fest, dass mehrere Kern-LM-Evaluierungsbenchmarks in Internet-Crawls stark kontaminiert sind (bis zu 40 % in SQuAD), was zu einer Überschätzung der Fähigkeiten von Sprachmodellen führen könnte, wenn sie auf solchen Daten trainiert werden. Wir hosten ein Benchmark-Kontaminationsbulletin, um die Kontaminationsrate vieler Kern- und Community-beigetragener Benchmarks zu teilen. Wir stellen auch eine Web-Oberfläche und einen API-Endpunkt zur Verfügung, um allgemeine Suchanfragen auf Infini-gram mini-Indizes zu bedienen.

English

Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.

Infini-gram mini: Exakte n-Gramm-Suche im Internetmaßstab mit FM-Index

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

papers.abstract

Support