Trove: Um Kit de Ferramentas Flexível para Recuperação Densada

Resumo

Apresentamos o Trove, um kit de ferramentas de recuperação de código aberto e fácil de usar que simplifica experimentos de pesquisa sem sacrificar flexibilidade ou velocidade. Pela primeira vez, introduzimos funcionalidades eficientes de gerenciamento de dados que carregam e processam (filtram, selecionam, transformam e combinam) conjuntos de dados de recuperação dinamicamente, com apenas algumas linhas de código. Isso oferece aos usuários a flexibilidade para experimentar facilmente com diferentes configurações de conjuntos de dados, sem a necessidade de calcular e armazenar múltiplas cópias de grandes volumes de dados. O Trove é altamente personalizável: além de muitas opções integradas, permite que os usuários modifiquem livremente componentes existentes ou os substituam completamente por objetos definidos pelo usuário. Também fornece um pipeline unificado e de baixo código para avaliação e mineração de negativos difíceis, que suporta execução multi-nó sem qualquer alteração de código. As funcionalidades de gerenciamento de dados do Trove reduzem o consumo de memória em um fator de 2,6. Além disso, o pipeline de inferência fácil de usar do Trove não incorre em sobrecarga, e os tempos de inferência diminuem linearmente com o número de nós disponíveis. Mais importante ainda, demonstramos como o Trove simplifica experimentos de recuperação e permite personalizações arbitrárias, facilitando assim a pesquisa exploratória.

English

We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.