ChatPaper.aiChatPaper

Trove: 高密度検索のための柔軟なツールキット

Trove: A Flexible Toolkit for Dense Retrieval

November 3, 2025
著者: Reza Esfandiarpoor, Max Zuo, Stephen H. Bach
cs.AI

要旨

本論文では、使いやすさと拡張性を両立させたオープンソース検索ツールキット「Trove」を提案する。本手法では、わずか数行のコードで検索データセットを動的に読み込み処理(フィルタリング・選択・変換・結合)する効率的なデータ管理機能を初めて実現した。これにより、大規模データセットの複数コピーを計算・保存する必要なく、ユーザーは柔軟に様々なデータセット構成を容易に実験できる。Troveは高いカスタマイズ性を有し、多数の組み込みオプションに加え、既存コンポーネントの自由な改変やユーザー定義オブジェクトによる完全置換が可能である。さらに、評価とハードネガティブマイニングのためのローコード統合パイプラインを提供し、コード変更なしでマルチノード実行をサポートする。Troveのデータ管理機能はメモリ消費量を2.6分の1に削減し、推論パイプラインはオーバーヘッドを発生させず、利用可能ノード数に比例して推論時間が線形減少する。最も重要な点として、Troveが如何に検索実験を簡素化し任意のカスタマイズを可能にするか実証し、探索的研究の促進に貢献することを示す。
English
We introduce Trove, an easy-to-use open-source retrieval toolkit that simplifies research experiments without sacrificing flexibility or speed. For the first time, we introduce efficient data management features that load and process (filter, select, transform, and combine) retrieval datasets on the fly, with just a few lines of code. This gives users the flexibility to easily experiment with different dataset configurations without the need to compute and store multiple copies of large datasets. Trove is highly customizable: in addition to many built-in options, it allows users to freely modify existing components or replace them entirely with user-defined objects. It also provides a low-code and unified pipeline for evaluation and hard negative mining, which supports multi-node execution without any code changes. Trove's data management features reduce memory consumption by a factor of 2.6. Moreover, Trove's easy-to-use inference pipeline incurs no overhead, and inference times decrease linearly with the number of available nodes. Most importantly, we demonstrate how Trove simplifies retrieval experiments and allows for arbitrary customizations, thus facilitating exploratory research.
PDF111January 19, 2026