ChatPaper.aiChatPaper

Col-Bandit : Élagage au moment de la requête sans apprentissage préalable pour le retrieval à interaction tardive

Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

February 2, 2026
papers.authors: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI

papers.abstract

Les récupérateurs à interaction tardive multi-vecteurs comme ColBERT atteignent une qualité de récupération à la pointe de l'état de l'art, mais leur coût au moment de la requête est dominé par le calcul exhaustif des interactions MaxSim au niveau des tokens pour chaque document candidat. Bien que l'approximation de l'interaction tardive avec des représentations mono-vecteurs réduise le coût, elle entraîne souvent une perte de précision substantielle. Nous présentons Col-Bandit, un algorithme d'élagage au moment de la requête qui réduit cette charge computationnelle en reformulant le reclassement comme un problème d'identification Top-K sur une population finie. Col-Bandit maintient des bornes tenant compte de l'incertitude sur les scores de documents partiellement observés et révèle de manière adaptative uniquement les entrées MaxSim (document, token de requête) nécessaires pour déterminer les meilleurs résultats sous des bornes décisionnelles statistiques avec une relaxation ajustable. Contrairement aux approches granuleuses qui élaguent des documents ou des tokens entiers hors ligne, Col-Bandit éparsifie la matrice d'interaction à la volée. Il fonctionne comme une couche universelle, prête à l'emploi, pour les systèmes multi-vecteurs standards, sans nécessiter de modifications d'index, de prétraitement hors ligne ou de réentraînement du modèle. Les expériences sur les benchmarks textuels (BEIR) et multimodaux (REAL-MM-RAG) montrent que Col-Bandit préserve la fidélité du classement tout en réduisant les FLOPs MaxSim jusqu'à 5 fois, indiquant que le scoring dense par interaction tardive contient une redondance substantielle qui peut être identifiée et élaguée efficacement au moment de la requête.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.
PDF12February 11, 2026