ChatPaper.aiChatPaper

Wie skaliert das generative Retrieval auf Millionen von Passagen?

How Does Generative Retrieval Scale to Millions of Passages?

May 19, 2023
Autoren: Ronak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran
cs.AI

Zusammenfassung

Durch den Differentiable Search Index populär gemacht, formuliert das aufkommende Paradigma des generativen Retrievals das klassische Problem der Informationsbeschaffung als eine Sequenz-zu-Sequenz-Modellierungsaufgabe neu und verzichtet dabei auf externe Indizes, indem es ein gesamtes Dokumentenkorpus innerhalb eines einzigen Transformers kodiert. Obwohl viele verschiedene Ansätze vorgeschlagen wurden, um die Effektivität des generativen Retrievals zu verbessern, wurden diese bisher nur auf Dokumentenkorpora in der Größenordnung von 100.000 Elementen evaluiert. Wir führen die erste empirische Studie zu generativen Retrieval-Techniken über verschiedene Korpusgrößen durch und skalieren schließlich bis zur gesamten MS MARCO Passage-Ranking-Aufgabe mit einem Korpus von 8,8 Millionen Passagen und Modellgrößen von bis zu 11 Milliarden Parametern. Wir decken mehrere Erkenntnisse über die Skalierung des generativen Retrievals auf Millionen von Passagen auf; insbesondere die zentrale Bedeutung der Verwendung synthetischer Anfragen als Dokumentendarstellungen während der Indizierung, die Unwirksamkeit bestehender vorgeschlagener Architekturmodifikationen unter Berücksichtigung der Rechenkosten und die Grenzen der naiven Skalierung von Modellparametern in Bezug auf die Retrieval-Leistung. Während wir feststellen, dass das generative Retrieval auf kleinen Korpora mit state-of-the-art Dual Encodern konkurrieren kann, bleibt die Skalierung auf Millionen von Passagen eine wichtige und ungelöste Herausforderung. Wir glauben, dass diese Erkenntnisse für die Gemeinschaft wertvoll sein werden, um den aktuellen Stand des generativen Retrievals zu klären, die einzigartigen Herausforderungen hervorzuheben und neue Forschungsrichtungen zu inspirieren.
English
Popularized by the Differentiable Search Index, the emerging paradigm of generative retrieval re-frames the classic information retrieval problem into a sequence-to-sequence modeling task, forgoing external indices and encoding an entire document corpus within a single Transformer. Although many different approaches have been proposed to improve the effectiveness of generative retrieval, they have only been evaluated on document corpora on the order of 100k in size. We conduct the first empirical study of generative retrieval techniques across various corpus scales, ultimately scaling up to the entire MS MARCO passage ranking task with a corpus of 8.8M passages and evaluating model sizes up to 11B parameters. We uncover several findings about scaling generative retrieval to millions of passages; notably, the central importance of using synthetic queries as document representations during indexing, the ineffectiveness of existing proposed architecture modifications when accounting for compute cost, and the limits of naively scaling model parameters with respect to retrieval performance. While we find that generative retrieval is competitive with state-of-the-art dual encoders on small corpora, scaling to millions of passages remains an important and unsolved challenge. We believe these findings will be valuable for the community to clarify the current state of generative retrieval, highlight the unique challenges, and inspire new research directions.
PDF30December 15, 2024