¿Cómo Escala la Recuperación Generativa a Millones de Pasajes?
How Does Generative Retrieval Scale to Millions of Passages?
May 19, 2023
Autores: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI
Resumen
Popularizado por el Differentiable Search Index, el paradigma emergente de recuperación generativa reformula el clásico problema de recuperación de información como una tarea de modelado secuencia a secuencia, prescindiendo de índices externos y codificando un corpus documental completo dentro de un único Transformer. Aunque se han propuesto muchos enfoques diferentes para mejorar la efectividad de la recuperación generativa, estos solo se han evaluado en corpus documentales del orden de 100k en tamaño. Realizamos el primer estudio empírico de técnicas de recuperación generativa en diversas escalas de corpus, llegando finalmente a escalar hasta la tarea completa de clasificación de pasajes de MS MARCO con un corpus de 8.8M de pasajes y evaluando tamaños de modelos de hasta 11B de parámetros. Descubrimos varios hallazgos sobre la escalabilidad de la recuperación generativa a millones de pasajes; notablemente, la importancia central de utilizar consultas sintéticas como representaciones de documentos durante la indexación, la ineficacia de las modificaciones arquitectónicas propuestas existentes al considerar el costo computacional, y los límites de escalar ingenuamente los parámetros del modelo con respecto al rendimiento de recuperación. Si bien encontramos que la recuperación generativa es competitiva con los codificadores duales de última generación en corpus pequeños, escalar a millones de pasajes sigue siendo un desafío importante y no resuelto. Creemos que estos hallazgos serán valiosos para la comunidad para clarificar el estado actual de la recuperación generativa, resaltar los desafíos únicos e inspirar nuevas direcciones de investigación.
English
Popularized by the Differentiable Search Index, the emerging paradigm of
generative retrieval re-frames the classic information retrieval problem into a
sequence-to-sequence modeling task, forgoing external indices and encoding an
entire document corpus within a single Transformer. Although many different
approaches have been proposed to improve the effectiveness of generative
retrieval, they have only been evaluated on document corpora on the order of
100k in size. We conduct the first empirical study of generative retrieval
techniques across various corpus scales, ultimately scaling up to the entire MS
MARCO passage ranking task with a corpus of 8.8M passages and evaluating model
sizes up to 11B parameters. We uncover several findings about scaling
generative retrieval to millions of passages; notably, the central importance
of using synthetic queries as document representations during indexing, the
ineffectiveness of existing proposed architecture modifications when accounting
for compute cost, and the limits of naively scaling model parameters with
respect to retrieval performance. While we find that generative retrieval is
competitive with state-of-the-art dual encoders on small corpora, scaling to
millions of passages remains an important and unsolved challenge. We believe
these findings will be valuable for the community to clarify the current state
of generative retrieval, highlight the unique challenges, and inspire new
research directions.