ChatPaper.aiChatPaper

Comment le rappel génératif s'adapte-t-il à des millions de passages ?

How Does Generative Retrieval Scale to Millions of Passages?

May 19, 2023
Auteurs: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI

Résumé

Popularisé par le Differentiable Search Index, le paradigme émergent de la recherche générative reformule le problème classique de la recherche d'information en une tâche de modélisation séquence-à-séquence, abandonnant les index externes et encodant un corpus documentaire entier dans un seul Transformer. Bien que de nombreuses approches aient été proposées pour améliorer l'efficacité de la recherche générative, elles n'ont été évaluées que sur des corpus documentaires de l'ordre de 100 000 documents. Nous menons la première étude empirique des techniques de recherche générative à différentes échelles de corpus, atteignant finalement l'ensemble de la tâche de classement de passages MS MARCO avec un corpus de 8,8 millions de passages et en évaluant des modèles allant jusqu'à 11 milliards de paramètres. Nous découvrons plusieurs résultats concernant la mise à l'échelle de la recherche générative à des millions de passages ; notamment, l'importance centrale de l'utilisation de requêtes synthétiques comme représentations de documents lors de l'indexation, l'inefficacité des modifications architecturales proposées existantes lorsqu'on tient compte du coût de calcul, et les limites de la mise à l'échelle naïve des paramètres du modèle en ce qui concerne les performances de recherche. Bien que nous constations que la recherche générative est compétitive avec les encodeurs doubles de pointe sur de petits corpus, la mise à l'échelle à des millions de passages reste un défi important et non résolu. Nous pensons que ces résultats seront précieux pour la communauté afin de clarifier l'état actuel de la recherche générative, mettre en lumière les défis uniques et inspirer de nouvelles directions de recherche.
English
Popularized by the Differentiable Search Index, the emerging paradigm of generative retrieval re-frames the classic information retrieval problem into a sequence-to-sequence modeling task, forgoing external indices and encoding an entire document corpus within a single Transformer. Although many different approaches have been proposed to improve the effectiveness of generative retrieval, they have only been evaluated on document corpora on the order of 100k in size. We conduct the first empirical study of generative retrieval techniques across various corpus scales, ultimately scaling up to the entire MS MARCO passage ranking task with a corpus of 8.8M passages and evaluating model sizes up to 11B parameters. We uncover several findings about scaling generative retrieval to millions of passages; notably, the central importance of using synthetic queries as document representations during indexing, the ineffectiveness of existing proposed architecture modifications when accounting for compute cost, and the limits of naively scaling model parameters with respect to retrieval performance. While we find that generative retrieval is competitive with state-of-the-art dual encoders on small corpora, scaling to millions of passages remains an important and unsolved challenge. We believe these findings will be valuable for the community to clarify the current state of generative retrieval, highlight the unique challenges, and inspire new research directions.
PDF30December 15, 2024