Trove: Un kit de herramientas flexible para la recuperación densa

Resumen

Presentamos Trove, un kit de herramientas de recuperación de código abierto y fácil uso que simplifica los experimentos de investigación sin sacrificar flexibilidad o velocidad. Por primera vez, introducimos funciones eficientes de gestión de datos que cargan y procesan (filtran, seleccionan, transforman y combinan) conjuntos de datos de recuperación sobre la marcha, con solo unas pocas líneas de código. Esto brinda a los usuarios la flexibilidad de experimentar fácilmente con diferentes configuraciones de conjuntos de datos sin necesidad de calcular y almacenar múltiples copias de grandes volúmenes de datos. Trove es altamente personalizable: además de muchas opciones integradas, permite a los usuarios modificar libremente componentes existentes o reemplazarlos por completo con objetos definidos por el usuario. También proporciona una canalización unificada de bajo código para evaluación y minería de negativos duros, que admite ejecución multi-nodo sin ningún cambio de código. Las funciones de gestión de datos de Trove reducen el consumo de memoria en un factor de 2.6. Además, la canalización de inferencia fácil de usar de Trove no genera sobrecarga, y los tiempos de inferencia disminuyen linealmente con el número de nodos disponibles. Más importante aún, demostramos cómo Trove simplifica los experimentos de recuperación y permite personalizaciones arbitrarias, facilitando así la investigación exploratoria.

English

We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.