Trove: Ein flexibles Toolkit für dichtes Retrieval
Trove: A Flexible Toolkit for Dense Retrieval
November 3, 2025
papers.authors: Reza Esfandiarpoor, Max Zuo, Stephen H. Bach
cs.AI
papers.abstract
Wir stellen Trove vor, ein benutzerfreundliches Open-Source-Retrieval-Toolkit, das Forschungsexperimente vereinfacht, ohne dabei Flexibilität oder Geschwindigkeit zu beeinträchtigen. Erstmals führen wir effiziente Datenverwaltungsfunktionen ein, die Retrieval-Datensätze on-the-fly mit nur wenigen Codezeilen laden und verarbeiten (filtern, auswählen, transformieren und kombinieren). Dies gibt Nutzern die Flexibilität, mühelos mit verschiedenen Datensatzkonfigurationen zu experimentieren, ohne mehrere Kopien großer Datensätze berechnen und speichern zu müssen. Trove ist hochgradig anpassbar: Neben vielen integrierten Optionen ermöglicht es Nutzern, bestehende Komponenten frei zu modifizieren oder vollständig durch benutzerdefinierte Objekte zu ersetzen. Es bietet zudem eine Low-Code- und vereinheitlichte Pipeline für Evaluation und Hard-Negative-Mining, die Mehrknoten-Ausführung ohne Codeänderungen unterstützt. Troves Datenverwaltungsfunktionen reduzieren den Speicherverbrauch um das 2,6-Fache. Darüber hinaus verursacht Troves benutzerfreundliche Inferenz-Pipeline keinen Overhead, und die Inferenzzeiten verringern sich linear mit der Anzahl verfügbarer Knoten. Am wichtigsten ist, dass wir demonstrieren, wie Trove Retrieval-Experimente vereinfacht und beliebige Anpassungen ermöglicht, wodurch explorative Forschung erleichtert wird.
English
We introduce Trove, an easy-to-use open-source retrieval toolkit that
simplifies research experiments without sacrificing flexibility or speed. For
the first time, we introduce efficient data management features that load and
process (filter, select, transform, and combine) retrieval datasets on the fly,
with just a few lines of code. This gives users the flexibility to easily
experiment with different dataset configurations without the need to compute
and store multiple copies of large datasets. Trove is highly customizable: in
addition to many built-in options, it allows users to freely modify existing
components or replace them entirely with user-defined objects. It also provides
a low-code and unified pipeline for evaluation and hard negative mining, which
supports multi-node execution without any code changes. Trove's data management
features reduce memory consumption by a factor of 2.6. Moreover, Trove's
easy-to-use inference pipeline incurs no overhead, and inference times decrease
linearly with the number of available nodes. Most importantly, we demonstrate
how Trove simplifies retrieval experiments and allows for arbitrary
customizations, thus facilitating exploratory research.