Col-Bandit: Poda en Tiempo de Consulta sin Ejemplos Previos para Recuperación de Interacción Tardía
Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval
February 2, 2026
Autores: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI
Resumen
Los recuperadores de interacción tardía multivector como ColBERT logran una calidad de recuperación de vanguardia, pero su costo en tiempo de consulta está dominado por el cálculo exhaustivo de interacciones MaxSim a nivel de token para cada documento candidato. Si bien aproximar la interacción tardía con representaciones de vector único reduce el costo, a menudo conlleva una pérdida sustancial de precisión. Presentamos Col-Bandit, un algoritmo de poda en tiempo de consulta que reduce esta carga computacional planteando la rerclasificación como un problema de identificación Top-K de población finita. Col-Bandit mantiene límites conscientes de la incertidumbre sobre las puntuaciones de documentos parcialmente observados y revela de forma adaptativa solo las entradas MaxSim (documento, token de consulta) necesarias para determinar los mejores resultados bajo límites de decisión estadística con una relajación ajustable. A diferencia de los enfoques de grano grueso que podan documentos o tokens completos fuera de línea, Col-Bandit esparcifica la matriz de interacción sobre la marcha. Opera como una capa de reemplazo inmediato (drop-in) y sin ajuste previo (zero-shot) sobre sistemas multivector estándar, sin requerir modificaciones en el índice, preprocesamiento offline o reentrenamiento del modelo. Los experimentos en benchmarks textuales (BEIR) y multimodales (REAL-MM-RAG) muestran que Col-Bandit preserva la fidelidad de la clasificación mientras reduce las operaciones de punto flotante (FLOPs) de MaxSim hasta en 5 veces, lo que indica que la puntuación densa por interacción tardía contiene una redundancia sustancial que puede identificarse y podarse eficientemente en tiempo de consulta.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.