Trove : Une Boîte à Outils Flexible pour la Recherche Dense

Résumé

Nous présentons Trove, une boîte à outils de recherche open-source facile à utiliser qui simplifie les expérimentations de recherche sans sacrifier la flexibilité ni la vitesse. Pour la première fois, nous introduisons des fonctionnalités efficaces de gestion des données qui chargent et traitent (filtrent, sélectionnent, transforment et combinent) les jeux de données de recherche à la volée, avec seulement quelques lignes de code. Cela offre aux utilisateurs la flexibilité d'expérimenter facilement avec différentes configurations de jeux de données sans avoir à calculer et stocker plusieurs copies de jeux de données volumineux. Trove est hautement personnalisable : en plus de nombreuses options intégrées, il permet aux utilisateurs de modifier librement les composants existants ou de les remplacer entièrement par des objets définis par l'utilisateur. Il fournit également un pipeline unifié à faible code pour l'évaluation et l'extraction de négatifs difficiles, qui prend en charge l'exécution multi-nœuds sans aucune modification de code. Les fonctionnalités de gestion des données de Trove réduisent la consommation mémoire d'un facteur 2,6. De plus, le pipeline d'inférence facile à utiliser de Trove n'entraîne aucune surcharge, et les temps d'inférence diminuent linéairement avec le nombre de nœuds disponibles. Plus important encore, nous démontrons comment Trove simplifie les expériences de recherche et permet des personnalisations arbitraires, facilitant ainsi la recherche exploratoire.

English

We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.