ChatPaper.aiChatPaper

Infini-gram mini: Búsqueda exacta de n-gramas a escala de Internet con FM-Index

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

June 13, 2025
Autores: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Resumen

Los modelos de lenguaje se entrenan principalmente con grandes cantidades de datos textuales provenientes de Internet, por lo que resulta cada vez más importante comprender esta fuente de datos. Los motores de búsqueda de coincidencia exacta permiten buscar en grandes corpus de texto —contando apariciones de cadenas y recuperando los documentos que las contienen—, sin embargo, el alto costo de almacenamiento dificulta su aplicación a datos de escala Internet. Presentamos Infini-gram mini, un sistema eficiente y escalable que permite hacer buscables corpus de texto de nivel petabyte. Basado en la estructura de datos FM-index (Ferragina y Manzini, 2000), que indexa y comprime texto simultáneamente, nuestro sistema crea índices con un tamaño de solo el 44% del corpus. Infini-gram mini mejora significativamente la mejor implementación existente de FM-index en términos de velocidad de indexación (18 veces) y uso de memoria tanto durante la indexación (reducción de 3.2 veces) como durante las consultas (hasta una cantidad insignificante). Indexamos 46 TB de texto de Internet en 50 días con un único nodo de CPU de 128 núcleos (o 19 horas si se utilizan 75 de estos nodos). Mostramos un caso de uso importante de Infini-gram mini en un análisis a gran escala de la contaminación de benchmarks. Descubrimos que varios benchmarks centrales de evaluación de modelos de lenguaje están fuertemente contaminados en los rastreos de Internet (hasta un 40% en SQuAD), lo que podría llevar a sobrestimar las capacidades de los modelos de lenguaje si se entrenan con dichos datos. Alojamos un boletín de contaminación de benchmarks para compartir la tasa de contaminación de muchos benchmarks centrales y contribuidos por la comunidad. También lanzamos una interfaz web y un punto final de API para atender consultas de búsqueda generales en los índices de Infini-gram mini.
English
Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
PDF32June 18, 2025