Col-Bandit: 後期相互作用型検索のためのゼロショットクエリ時枝刈り
Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval
February 2, 2026
著者: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI
要旨
ColBERTに代表されるマルチベクトル後相互作用型検索モデルは、最先端の検索精度を実現するが、クエリ時の計算コストは、候補文書ごとのトークンレベルMaxSim相互作用を網羅的に計算する処理が支配的である。単一ベクトル表現による後相互作用の近似はコストを削減するが、精度の大幅な低下を招くことが多い。本論文では、この計算負荷を軽減するクエリ時枝刈りアルゴリズム「Col-Bandit」を提案する。本手法は、再ランキングを有限母集団におけるTop-K同定問題として定式化する。Col-Banditは、部分的に観測された文書スコアに対して不確実性を考慮した境界を維持し、調整可能な緩和条件付きの統計的決定境界の下で上位結果を決定するために必要な(文書、クエリトークン)MaxSimエントリのみを適応的に抽出する。文書全体やトークンをオフラインで枝刈りする粗粒度の手法とは異なり、Col-Banditは相互作用行列をオンザフライでスパース化する。これは標準的なマルチベクトルシステム上で、インデックスの変更、オフライン前処理、またはモデルの再学習を必要とせず、ゼロショットのドロップイン層として機能する。テキストベンチマーク(BEIR)およびマルチモーダルベンチマーク(REAL-MM-RAG)による実験では、Col-Banditがランキングの正確性を維持しつつ、MaxSimのFLOPsを最大5倍削減できることが示され、密な後相互作用スコアリングには、クエリ時に効率的に特定・枝刈り可能な相当量の冗長性が含まれていることが示唆された。
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.