ChatPaper.aiChatPaper

Infini-gram mini: Точный поиск n-грамм в интернет-масштабе с использованием FM-индекса

Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index

June 13, 2025
Авторы: Hao Xu, Jiacheng Liu, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi
cs.AI

Аннотация

Языковые модели обучаются преимущественно на огромных объемах текстовых данных из Интернета, и понимание этого источника данных становится все более важным. Поисковые системы с точным соответствием позволяют осуществлять поиск в больших текстовых корпусах — подсчитывать появления строк и извлекать содержащие их документы, — однако высокие затраты на хранение данных ограничивают их применение на масштабах Интернета. Мы представляем Infini-gram mini, эффективную и масштабируемую систему, которая делает доступными для поиска текстовые корпуса объемом в петабайты. Основанная на структуре данных FM-индекса (Ferragina и Manzini, 2000), которая одновременно индексирует и сжимает текст, наша система создает индексы, размер которых составляет всего 44% от объема корпуса. Infini-gram mini значительно превосходит лучшие существующие реализации FM-индекса по скорости индексации (в 18 раз) и использованию памяти как в процессе индексации (сокращение в 3,2 раза), так и при выполнении запросов (до незначительного уровня). Мы проиндексировали 46 ТБ интернет-текстов за 50 дней на одном узле с 128-ядерным процессором (или за 19 часов при использовании 75 таких узлов). Мы демонстрируем важный пример использования Infini-gram mini в крупномасштабном анализе загрязнения тестовых наборов данных. Мы обнаружили, что несколько ключевых тестовых наборов для оценки языковых моделей сильно загрязнены в интернет-сборах (до 40% в SQuAD), что может привести к завышению возможностей языковых моделей, если они обучаются на таких данных. Мы создали бюллетень загрязнения тестовых наборов, чтобы делиться уровнем загрязнения многих ключевых и предоставленных сообществом тестов. Мы также выпустили веб-интерфейс и API-эндпоинт для обработки общих поисковых запросов на индексах Infini-gram mini.
English
Language models are trained mainly on massive text data from the Internet, and it becomes increasingly important to understand this data source. Exact-match search engines enable searching in large text corpora -- counting string appearances and retrieving the enclosing documents -- yet the high storage overhead hinders their application on Internet-scale data. We present Infini-gram mini, an efficient and scalable system that can make petabyte-level text corpora searchable. Based on the FM-index data structure (Ferragina and Manzini, 2000), which simultaneously indexes and compresses text, our system creates indexes with size only 44% of the corpus. Infini-gram mini greatly improves upon the best existing implementation of FM-index in terms of indexing speed (18times) and memory use during both indexing (3.2times reduction) and querying (down to a negligible amount). We index 46TB of Internet text in 50 days with a single 128-core CPU node (or 19 hours if using 75 such nodes). We show one important use case of Infini-gram mini in a large-scale analysis of benchmark contamination. We find several core LM evaluation benchmarks to be heavily contaminated in Internet crawls (up to 40% in SQuAD), which could lead to overestimating the capabilities of language models if trained on such data. We host a benchmark contamination bulletin to share the contamination rate of many core and community-contributed benchmarks. We also release a web interface and an API endpoint to serve general search queries on Infini-gram mini indexes.
PDF32June 18, 2025