Как генеративное извлечение масштабируется до миллионов документов?
How Does Generative Retrieval Scale to Millions of Passages?
May 19, 2023
Авторы: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI
Аннотация
Получившая популярность благодаря Differentiable Search Index, новая парадигма генеративного поиска переосмысливает классическую задачу информационного поиска как задачу моделирования последовательностей, отказываясь от внешних индексов и кодируя весь корпус документов в рамках одного Transformer. Хотя было предложено множество различных подходов для повышения эффективности генеративного поиска, они оценивались только на корпусах документов размером порядка 100 тысяч. Мы проводим первое эмпирическое исследование методов генеративного поиска на различных масштабах корпусов, в конечном итоге масштабируясь до всей задачи ранжирования отрывков MS MARCO с корпусом из 8,8 миллионов отрывков и оценивая модели размером до 11 миллиардов параметров. Мы выявляем несколько важных аспектов масштабирования генеративного поиска на миллионы отрывков; в частности, ключевое значение использования синтетических запросов в качестве представлений документов при индексации, неэффективность существующих предложенных модификаций архитектуры с учетом вычислительных затрат, а также ограничения наивного масштабирования параметров модели с точки зрения производительности поиска. Хотя мы обнаруживаем, что генеративный поиск конкурентоспособен с современными дуальными кодировщиками на небольших корпусах, масштабирование на миллионы отрывков остается важной и нерешенной задачей. Мы считаем, что эти выводы будут полезны для сообщества, чтобы прояснить текущее состояние генеративного поиска, выделить уникальные вызовы и вдохновить новые направления исследований.
English
Popularized by the Differentiable Search Index, the emerging paradigm of
generative retrieval re-frames the classic information retrieval problem into a
sequence-to-sequence modeling task, forgoing external indices and encoding an
entire document corpus within a single Transformer. Although many different
approaches have been proposed to improve the effectiveness of generative
retrieval, they have only been evaluated on document corpora on the order of
100k in size. We conduct the first empirical study of generative retrieval
techniques across various corpus scales, ultimately scaling up to the entire MS
MARCO passage ranking task with a corpus of 8.8M passages and evaluating model
sizes up to 11B parameters. We uncover several findings about scaling
generative retrieval to millions of passages; notably, the central importance
of using synthetic queries as document representations during indexing, the
ineffectiveness of existing proposed architecture modifications when accounting
for compute cost, and the limits of naively scaling model parameters with
respect to retrieval performance. While we find that generative retrieval is
competitive with state-of-the-art dual encoders on small corpora, scaling to
millions of passages remains an important and unsolved challenge. We believe
these findings will be valuable for the community to clarify the current state
of generative retrieval, highlight the unique challenges, and inspire new
research directions.