Col-Bandit: Potatura al Momento della Query Senza Esempi per il Recupero a Late-Interaction

Abstract

I recuperatori a interazione tardiva multi-vettore come ColBERT raggiungono una qualità di recupero allo stato dell'arte, ma il loro costo in fase di query è dominato dal calcolo esaustivo delle interazioni MaxSim a livello di token per ogni documento candidato. Sebbene l'approssimazione dell'interazione tardiva con rappresentazioni mono-vettore riduca il costo, essa comporta spesso una perdita sostanziale di accuratezza. Introduciamo Col-Bandit, un algoritmo di pruning in fase di query che riduce questo onere computazionale inquadrando il reranking come un problema di identificazione Top-K a popolazione finita. Col-Bandit mantiene dei limiti consapevoli dell'incertezza sui punteggi parzialmente osservati dei documenti e rivela in modo adattivo solo le voci MaxSim (documento, token di query) necessarie per determinare i risultati migliori sotto limiti decisionali statistici con una rilassazione regolabile. A differenza degli approcci a grana grossa che eliminano interi documenti o token offline, Col-Bandit rende sparsa la matrice di interazione al volo. Opera come uno strato zero-shot e di immediato utilizzo su sistemi multi-vettore standard, senza richiedere modifiche all'indice, pre-elaborazione offline o riaddestramento del modello. Esperimenti su benchmark testuali (BEIR) e multimodali (REAL-MM-RAG) mostrano che Col-Bandit preserva la fedeltà del ranking riducendo le operazioni in virgola mobile di MaxSim fino a 5 volte, indicando che la valutazione densa a interazione tardiva contiene una ridondanza sostanziale che può essere identificata ed eliminata efficientemente in fase di query.

English

Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.

Col-Bandit: Potatura al Momento della Query Senza Esempi per il Recupero a Late-Interaction

Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

Abstract

Support