Col-Bandit: 후기 상호작용 검색을 위한 제로샷 쿼리 시점 프루닝
Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval
February 2, 2026
저자: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI
초록
ColBERT와 같은 다중 벡터 후기 상호작용 검색기는 최고 수준의 검색 품질을 달성하지만, 쿼리 시간 비용은 모든 후보 문서에 대해 토큰 수준 MaxSim 상호작용을 완전히 계산하는 데 주로 소요됩니다. 단일 벡터 표현으로 후기 상호작용을 근사화하면 비용은 줄어들지만, 종종 상당한 정확도 손실이 발생합니다. 본 연구에서는 재순위화를 유한 모집단 Top-K 식별 문제로 전환하여 이 계산 부담을 줄이는 쿼리 시간 가지치기 알고리즘인 Col-Bandit을 소개합니다. Col-Bandit은 부분적으로 관찰된 문서 점수에 대해 불확실성 인지 경계를 유지하며, 조정 가능한 완화 조건의 통계적 결정 경계 하에서 상위 결과를 결정하는 데 필요한 (문서, 쿼리 토큰) MaxSim 항목만 적응적으로 추출합니다. 문서 전체나 토큰을 오프라인에서 대략적으로 제거하는 방식과 달리, Col-Bandit은 상호작용 행렬을 실시간으로 희소화합니다. 이는 표준 다중 벡터 시스템 위에 제로-샷, 즉시 적용 가능한 계층으로 작동하며, 인덱스 수정, 오프라인 전처리 또는 모델 재학습이 필요하지 않습니다. 텍스트(BEIR) 및 멀티모달(REAL-MM-RAG) 벤치마크 실험 결과, Col-Bandit은 MaxSim FLOPs를 최대 5배까지 줄이면서도 순위 충실도를 유지하는 것으로 나타나, 밀집 후기 상호작용 점수 계산에는 쿼리 시간에 효율적으로 식별 및 제거 가능한 상당한 중복성이 포함되어 있음을 시사합니다.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.