Trove: Een flexibele toolkit voor dichte retrievel

Samenvatting

Wij introduceren Trove, een gebruiksvriendelijke open-source retrieval toolkit die onderzoeksexperimenten vereenvoudigt zonder in te leveren op flexibiliteit of snelheid. Voor het eerst introduceren we efficiënte data management functies die retrieval datasets dynamisch laden en verwerken (filteren, selecteren, transformeren en combineren) met slechts enkele regels code. Dit geeft gebruikers de flexibiliteit om eenvoudig te experimenteren met verschillende datasetconfiguraties zonder dat er meerdere kopieën van grote datasets berekend en opgeslagen hoeven te worden. Trove is sterk aanpasbaar: naast vele ingebouwde opties kunnen gebruikers bestaande componenten vrij aanpassen of volledig vervangen door door de gebruiker gedefinieerde objecten. Het biedt ook een low-code en uniforme pipeline voor evaluatie en hard negative mining, die ondersteuning biedt voor multi-node uitvoering zonder codeaanpassingen. Trove's data management functies verminderen het geheugengebruik met een factor 2,6. Bovendien kent Trove's gebruiksvriendelijke inference pipeline geen overhead en nemen inference tijden lineair af met het aantal beschikbare nodes. Het belangrijkste is dat we aantonen hoe Trove retrieval experimenten vereenvoudigt en willekeurige aanpassingen mogelijk maakt, waardoor exploratief onderzoek wordt gefaciliteerd.

English

We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.

Trove: Een flexibele toolkit voor dichte retrievel

Trove: A Flexible Toolkit for Dense Retrieval

Samenvatting

Support