ChatPaper.aiChatPaper

Col-Bandit: Null-Shot-Abgleich zur Abfragezeit für Late-Interaction-Retrieval

Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

February 2, 2026
papers.authors: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI

papers.abstract

Multi-Vector Late-Interaction Retriever wie ColBERT erreichen state-of-the-art Retrieval-Qualität, jedoch werden ihre Abfragezeiten maßgeblich durch die exhaustive Berechnung token-basierter MaxSim-Interaktionen für jedes Kandidatendokument bestimmt. Während eine Approximation der Late Interaction durch Single-Vector-Repräsentationen die Kosten reduziert, führt dies oft zu erheblichen Genauigkeitseinbußen. Wir stellen Col-Bandit vor, einen Abfragezeit-Pruning-Algorithmus, der diese Rechenlast verringert, indem er das Re-Ranking als ein Top-K-Identifikationsproblem mit endlicher Population modelliert. Col-Bandit verwaltet unsicherheitsbewusste Schranken für partiell beobachtete Dokument-Scores und enthüllt adaptiv nur die (Dokument, Query-Token)-MaxSim-Einträge, die benötigt werden, um die Top-Ergebnisse innerhalb statistischer Entscheidungsgrenzen mit einstellbarer Relaxierung zu bestimmen. Im Gegensatz zu grobgranularen Ansätzen, die vollständige Dokumente oder Token offline ausschließen, sparsifiziert Col-Bandit die Interaktionsmatrix on-the-fly. Es fungiert als Zero-Shot, Drop-in-Layer für Standard-Multi-Vektor-Systeme, erfordert keine Indexmodifikationen, Offline-Vorverarbeitung oder Modell-Neutraining. Experimente auf textuellen (BEIR) und multimodalen (REAL-MM-RAG) Benchmarks zeigen, dass Col-Bandit die Ranking-Genauigkeit erhält und gleichzeitig die MaxSim-FLOPs um bis zum 5-fachen reduziert. Dies deutet darauf hin, dass dichtes Late-Interaction-Scoring erhebliche Redundanz enthält, die zur Abfragezeit effizient identifiziert und entfernt werden kann.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.
PDF12February 11, 2026