生成型検索は数百万のパッセージにどのようにスケールするのか?
How Does Generative Retrieval Scale to Millions of Passages?
May 19, 2023
著者: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI
要旨
Differentiable Search Indexによって広まった新しいパラダイムである生成型検索は、従来の情報検索問題をシーケンス・ツー・シーケンスモデリングタスクとして再定義し、外部インデックスを廃して単一のTransformer内に文書コーパス全体をエンコードする。生成型検索の効果を向上させるために多くの異なるアプローチが提案されているが、これまで10万規模の文書コーパスでのみ評価されてきた。本研究では、様々な規模のコーパスにおける生成型検索技術の初の実証研究を行い、最終的に8.8MのパッセージからなるMS MARCOパッセージランキングタスク全体にスケールアップし、最大110億パラメータのモデルサイズを評価した。数百万のパッセージに生成型検索をスケールする際にいくつかの知見を明らかにした。特に、インデックス作成時に合成クエリを文書表現として使用することの重要性、計算コストを考慮した場合の既存のアーキテクチャ変更の非効率性、および検索性能に関してモデルパラメータを単純にスケールすることの限界である。生成型検索が小規模コーパスにおいて最先端のデュアルエンコーダと競合することを確認した一方で、数百万のパッセージにスケールすることは依然として重要な未解決の課題である。これらの知見が、生成型検索の現状を明確にし、特有の課題を浮き彫りにし、新しい研究の方向性を刺激するためにコミュニティにとって価値があると信じている。
English
Popularized by the Differentiable Search Index, the emerging paradigm of
generative retrieval re-frames the classic information retrieval problem into a
sequence-to-sequence modeling task, forgoing external indices and encoding an
entire document corpus within a single Transformer. Although many different
approaches have been proposed to improve the effectiveness of generative
retrieval, they have only been evaluated on document corpora on the order of
100k in size. We conduct the first empirical study of generative retrieval
techniques across various corpus scales, ultimately scaling up to the entire MS
MARCO passage ranking task with a corpus of 8.8M passages and evaluating model
sizes up to 11B parameters. We uncover several findings about scaling
generative retrieval to millions of passages; notably, the central importance
of using synthetic queries as document representations during indexing, the
ineffectiveness of existing proposed architecture modifications when accounting
for compute cost, and the limits of naively scaling model parameters with
respect to retrieval performance. While we find that generative retrieval is
competitive with state-of-the-art dual encoders on small corpora, scaling to
millions of passages remains an important and unsolved challenge. We believe
these findings will be valuable for the community to clarify the current state
of generative retrieval, highlight the unique challenges, and inspire new
research directions.