Hoe Schaalbaar is Generatief Ophalen naar Miljoenen Passages?

Samenvatting

Gepopulariseerd door de Differentiable Search Index, herformuleert het opkomende paradigma van generatief ophalen het klassieke informatie-ophaalprobleem tot een sequence-to-sequence modelleertaak, waarbij externe indexen worden achterwege gelaten en een volledig documentencorpus wordt gecodeerd binnen een enkele Transformer. Hoewel er veel verschillende benaderingen zijn voorgesteld om de effectiviteit van generatief ophalen te verbeteren, zijn deze alleen geëvalueerd op documentencorpora van ongeveer 100k in omvang. Wij voeren de eerste empirische studie uit van generatieve ophaaltechnieken over verschillende corpusgroottes, waarbij we uiteindelijk opschalen naar de volledige MS MARCO passage-rankingtaak met een corpus van 8,8 miljoen passages en modelgroottes evalueren tot 11B parameters. We ontdekken verschillende bevindingen over het opschalen van generatief ophalen naar miljoenen passages; met name het centrale belang van het gebruik van synthetische queries als documentrepresentaties tijdens het indexeren, de ineffectiviteit van bestaande voorgestelde architectuuraanpassingen wanneer rekening wordt gehouden met rekencosten, en de grenzen van het naïef opschalen van modelparameters met betrekking tot ophaalprestaties. Hoewel we vaststellen dat generatief ophalen concurrerend is met state-of-the-art duale encoders op kleine corpora, blijft het opschalen naar miljoenen passages een belangrijk en onopgelost vraagstuk. Wij geloven dat deze bevindingen waardevol zullen zijn voor de gemeenschap om de huidige stand van generatief ophalen te verduidelijken, de unieke uitdagingen te benadrukken en nieuwe onderzoeksrichtingen te inspireren.

English

Popularized by the Differentiable Search Index, the emerging paradigm of generative retrieval re-frames the classic information retrieval problem into a sequence-to-sequence modeling task, forgoing external indices and encoding an entire document corpus within a single Transformer. Although many different approaches have been proposed to improve the effectiveness of generative retrieval, they have only been evaluated on document corpora on the order of 100k in size. We conduct the first empirical study of generative retrieval techniques across various corpus scales, ultimately scaling up to the entire MS MARCO passage ranking task with a corpus of 8.8M passages and evaluating model sizes up to 11B parameters. We uncover several findings about scaling generative retrieval to millions of passages; notably, the central importance of using synthetic queries as document representations during indexing, the ineffectiveness of existing proposed architecture modifications when accounting for compute cost, and the limits of naively scaling model parameters with respect to retrieval performance. While we find that generative retrieval is competitive with state-of-the-art dual encoders on small corpora, scaling to millions of passages remains an important and unsolved challenge. We believe these findings will be valuable for the community to clarify the current state of generative retrieval, highlight the unique challenges, and inspire new research directions.

Hoe Schaalbaar is Generatief Ophalen naar Miljoenen Passages?

How Does Generative Retrieval Scale to Millions of Passages?

Samenvatting

Support