Como a Recuperação Generativa Escala para Milhões de Passagens?
How Does Generative Retrieval Scale to Millions of Passages?
May 19, 2023
Autores: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI
Resumo
Popularizado pelo Differentiable Search Index, o paradigma emergente de recuperação generativa reformula o clássico problema de recuperação de informação como uma tarefa de modelagem sequência-para-sequência, dispensando índices externos e codificando um corpus documentário inteiro dentro de um único Transformer. Embora muitas abordagens diferentes tenham sido propostas para melhorar a eficácia da recuperação generativa, elas só foram avaliadas em corpora documentários da ordem de 100 mil documentos. Realizamos o primeiro estudo empírico de técnicas de recuperação generativa em várias escalas de corpus, escalando até a tarefa completa de ranqueamento de passagens do MS MARCO com um corpus de 8,8 milhões de passagens e avaliando modelos com até 11 bilhões de parâmetros. Descobrimos várias descobertas sobre a escalabilidade da recuperação generativa para milhões de passagens; notavelmente, a importância central de usar consultas sintéticas como representações de documentos durante a indexação, a ineficácia das modificações arquitetônicas propostas existentes ao considerar o custo computacional, e os limites da escalabilidade ingênua de parâmetros do modelo em relação ao desempenho de recuperação. Embora tenhamos constatado que a recuperação generativa é competitiva com os codificadores duais state-of-the-art em corpora pequenos, escalar para milhões de passagens continua sendo um desafio importante e não resolvido. Acreditamos que essas descobertas serão valiosas para a comunidade, esclarecendo o estado atual da recuperação generativa, destacando os desafios únicos e inspirando novas direções de pesquisa.
English
Popularized by the Differentiable Search Index, the emerging paradigm of
generative retrieval re-frames the classic information retrieval problem into a
sequence-to-sequence modeling task, forgoing external indices and encoding an
entire document corpus within a single Transformer. Although many different
approaches have been proposed to improve the effectiveness of generative
retrieval, they have only been evaluated on document corpora on the order of
100k in size. We conduct the first empirical study of generative retrieval
techniques across various corpus scales, ultimately scaling up to the entire MS
MARCO passage ranking task with a corpus of 8.8M passages and evaluating model
sizes up to 11B parameters. We uncover several findings about scaling
generative retrieval to millions of passages; notably, the central importance
of using synthetic queries as document representations during indexing, the
ineffectiveness of existing proposed architecture modifications when accounting
for compute cost, and the limits of naively scaling model parameters with
respect to retrieval performance. While we find that generative retrieval is
competitive with state-of-the-art dual encoders on small corpora, scaling to
millions of passages remains an important and unsolved challenge. We believe
these findings will be valuable for the community to clarify the current state
of generative retrieval, highlight the unique challenges, and inspire new
research directions.