あらゆるモダリティにおけるマルチベクトル索引圧縮
Multi-Vector Index Compression in Any Modality
February 24, 2026
著者: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI
要旨
我々は、任意のモダリティにおける後期相互作用のための効率的なマルチベクトル検索手法を研究する。後期相互作用は、テキスト、画像、視覚的文書、動画における情報検索の主要なパラダイムとして確立されているが、その計算コストとストレージコストは文書長に比例して増大するため、画像・動画・音声リッチなコーパスでは高コストとなる。この制約を解決するため、我々は一定のベクトル予算下でマルチベクトル文書表現を圧縮するクエリ非依存型手法を探求する。索引圧縮のための4つのアプローチを提案する:シーケンスリサイジング、メモリトークン、階層的プーリング、および新規の注意誘導クラスタリング(AGC)である。AGCは注意誘導メカニズムを用いて、文書の意味的に最も salient な領域をクラスタ重心として特定し、トークン集約に重み付けを行う。テキスト(BEIR)、視覚的文書(ViDoRe)、動画(MSR-VTT、MultiVENT 2.0)にわたる検索タスクでこれらの手法を評価した結果、注意誘導クラスタリングが他のパラメータ化圧縮手法(シーケンスリサイジングとメモリトークン)を一貫して上回り、非パラメトリックな階層的クラスタリングよりも索引サイズの柔軟性が高く、完全な非圧縮索引と比較しても遜色ない、あるいは改善された性能を達成することを示す。ソースコードは github.com/hanxiangqin/omni-col-press で公開されている。
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.