Col-Bandit: Nulschot-query-time-snoei voor late-interactie-retrieval
Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval
February 2, 2026
Auteurs: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI
Samenvatting
Multi-vector late-interaction retrievers zoals ColBERT bereiken state-of-the-art retrievalkwaliteit, maar hun querytijdkosten worden gedomineerd door het exhaustief berekenen van token-level MaxSim-interacties voor elk kandidaatdocument. Hoewel approximatie van late interactie met single-vector representaties de kosten reduceert, leidt dit vaak tot substantieel accuratesseverlies. Wij introduceren Col-Bandit, een querytijd pruning-algoritme dat deze computationele last vermindert door herrangschikking te modelleren als een eindige-populatie Top-K identificatieprobleem. Col-Bandit houdt onzekerheidsbewuste grenzen aan voor partieel geobserveerde documentscores en onthult adaptief alleen de (document, query token) MaxSim-ingangen die nodig zijn om de topresultaten te bepalen onder statistische beslissingsgrenzen met een afstembare relaxatie. In tegenstelling tot coarse-grained benaderingen die volledige documenten of tokens offline wegprunen, sparsificeert Col-Bandit de interactiematrix on-the-fly. Het opereert als een zero-shot, drop-in laag bovenop standaard multi-vector systemen, vereist geen indexmodificaties, offline preprocessing of modelhertraining. Experimenten op tekstuele (BEIR) en multimodale (REAL-MM-RAG) benchmarks tonen aan dat Col-Bandit rankingfideliteit behoudt terwijl het MaxSim FLOPs met tot 5 keer reduceert, wat aangeeft dat dichte late-interactie scoring substantiële redundantie bevat die efficiënt geïdentificeerd en weggepruned kan worden tijdens querytijd.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.