Trove: Ein flexibles Toolkit für dichtes Retrieval

Zusammenfassung

Wir stellen Trove vor, ein benutzerfreundliches Open-Source-Retrieval-Toolkit, das Forschungsexperimente vereinfacht, ohne dabei Flexibilität oder Geschwindigkeit zu beeinträchtigen. Erstmals führen wir effiziente Datenverwaltungsfunktionen ein, die Retrieval-Datensätze on-the-fly mit nur wenigen Codezeilen laden und verarbeiten (filtern, auswählen, transformieren und kombinieren). Dies gibt Nutzern die Flexibilität, mühelos mit verschiedenen Datensatzkonfigurationen zu experimentieren, ohne mehrere Kopien großer Datensätze berechnen und speichern zu müssen. Trove ist hochgradig anpassbar: Neben vielen integrierten Optionen ermöglicht es Nutzern, bestehende Komponenten frei zu modifizieren oder vollständig durch benutzerdefinierte Objekte zu ersetzen. Es bietet zudem eine Low-Code- und vereinheitlichte Pipeline für Evaluation und Hard-Negative-Mining, die Mehrknoten-Ausführung ohne Codeänderungen unterstützt. Troves Datenverwaltungsfunktionen reduzieren den Speicherverbrauch um das 2,6-Fache. Darüber hinaus verursacht Troves benutzerfreundliche Inferenz-Pipeline keinen Overhead, und die Inferenzzeiten verringern sich linear mit der Anzahl verfügbarer Knoten. Am wichtigsten ist, dass wir demonstrieren, wie Trove Retrieval-Experimente vereinfacht und beliebige Anpassungen ermöglicht, wodurch explorative Forschung erleichtert wird.

English

We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.