ChatPaper.aiChatPaper

Infini-gram mini: Ricerca esatta di n-grammi su scala Internet con FM-Index

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

June 13, 2025
Autori: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Abstract

I modelli linguistici vengono addestrati principalmente su enormi quantità di dati testuali provenienti da Internet, e diventa sempre più importante comprendere questa fonte di dati. I motori di ricerca basati su corrispondenza esatta consentono di effettuare ricerche in grandi corpora testuali -- contando le occorrenze di stringhe e recuperando i documenti che le contengono -- tuttavia, l'elevato overhead di archiviazione ne limita l'applicazione su dati di scala Internet. Presentiamo Infini-gram mini, un sistema efficiente e scalabile in grado di rendere ricercabili corpora testuali di livello petabyte. Basato sulla struttura dati FM-index (Ferragina e Manzini, 2000), che indicizza e comprime il testo simultaneamente, il nostro sistema crea indici con una dimensione pari solo al 44% del corpus. Infini-gram mini migliora notevolmente la migliore implementazione esistente di FM-index in termini di velocità di indicizzazione (18 volte) e uso della memoria sia durante l'indicizzazione (riduzione di 3,2 volte) che durante l'interrogazione (fino a una quantità trascurabile). Abbiamo indicizzato 46TB di testo Internet in 50 giorni con un singolo nodo CPU a 128 core (o 19 ore utilizzando 75 di questi nodi). Mostriamo un importante caso d'uso di Infini-gram mini in un'analisi su larga scala della contaminazione dei benchmark. Abbiamo scoperto che diversi benchmark fondamentali per la valutazione dei modelli linguistici sono pesantemente contaminati nei crawl di Internet (fino al 40% in SQuAD), il che potrebbe portare a una sovrastima delle capacità dei modelli linguistici se addestrati su tali dati. Ospitiamo un bollettino sulla contaminazione dei benchmark per condividere il tasso di contaminazione di molti benchmark fondamentali e contribuiti dalla comunità. Rilasciamo anche un'interfaccia web e un endpoint API per servire interrogazioni di ricerca generiche sugli indici di Infini-gram mini.
English
Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
PDF32June 18, 2025