Come si adatta il recupero generativo a milioni di passaggi?
How Does Generative Retrieval Scale to Millions of Passages?
May 19, 2023
Autori: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI
Abstract
Popolarizzato dal Differentiable Search Index, il paradigma emergente del retrieval generativo riformula il classico problema del recupero delle informazioni come un'attività di modellazione sequenza-a-sequenza, rinunciando a indici esterni e codificando un intero corpus documentale all'interno di un singolo Transformer. Sebbene siano stati proposti molti approcci diversi per migliorare l'efficacia del retrieval generativo, questi sono stati valutati solo su corpora documentali di dimensioni dell'ordine di 100k elementi. Conduriamo il primo studio empirico sulle tecniche di retrieval generativo su varie scale di corpus, arrivando a scalare fino all'intero task di ranking dei passaggi di MS MARCO con un corpus di 8,8 milioni di passaggi e valutando modelli con dimensioni fino a 11 miliardi di parametri. Scopriamo diversi risultati riguardo al ridimensionamento del retrieval generativo a milioni di passaggi; in particolare, l'importanza centrale dell'uso di query sintetiche come rappresentazioni documentali durante l'indicizzazione, l'inefficacia delle modifiche architetturali proposte esistenti quando si tiene conto del costo computazionale, e i limiti del ridimensionamento ingenuo dei parametri del modello rispetto alle prestazioni di retrieval. Sebbene troviamo che il retrieval generativo sia competitivo con i dual encoder all'avanguardia su piccoli corpora, il ridimensionamento a milioni di passaggi rimane una sfida importante e irrisolta. Crediamo che questi risultati saranno preziosi per la comunità per chiarire lo stato attuale del retrieval generativo, evidenziare le sfide uniche e ispirare nuove direzioni di ricerca.
English
Popularized by the Differentiable Search Index, the emerging paradigm of
generative retrieval re-frames the classic information retrieval problem into a
sequence-to-sequence modeling task, forgoing external indices and encoding an
entire document corpus within a single Transformer. Although many different
approaches have been proposed to improve the effectiveness of generative
retrieval, they have only been evaluated on document corpora on the order of
100k in size. We conduct the first empirical study of generative retrieval
techniques across various corpus scales, ultimately scaling up to the entire MS
MARCO passage ranking task with a corpus of 8.8M passages and evaluating model
sizes up to 11B parameters. We uncover several findings about scaling
generative retrieval to millions of passages; notably, the central importance
of using synthetic queries as document representations during indexing, the
ineffectiveness of existing proposed architecture modifications when accounting
for compute cost, and the limits of naively scaling model parameters with
respect to retrieval performance. While we find that generative retrieval is
competitive with state-of-the-art dual encoders on small corpora, scaling to
millions of passages remains an important and unsolved challenge. We believe
these findings will be valuable for the community to clarify the current state
of generative retrieval, highlight the unique challenges, and inspire new
research directions.