Col-Bandit: Poda em Tempo de Consulta sem Exemplos para Recuperação por Interação Tardia

Resumo

Os recuperadores de interação tardia multivector, como o ColBERT, alcançam qualidade de recuperação de última geração, mas o seu custo no tempo de consulta é dominado pelo cálculo exaustivo das interações MaxSim a nível de token para cada documento candidato. Embora a aproximação da interação tardia com representações de vetor único reduza o custo, ela frequentemente incorre em uma perda substancial de precisão. Introduzimos o Col-Bandit, um algoritmo de poda em tempo de consulta que reduz este fardo computacional ao transformar a rerranqueamento num problema de identificação Top-K de população finita. O Col-Bandit mantém limites conscientes da incerteza sobre as pontuações de documentos parcialmente observados e revela de forma adaptativa apenas as entradas MaxSim (documento, token de consulta) necessárias para determinar os melhores resultados sob limites de decisão estatística com uma relaxação ajustável. Diferente de abordagens de granularidade grossa que podam documentos inteiros ou tokens offline, o Col-Bandit esparsifica a matriz de interação dinamicamente. Ele opera como uma camada de substituição imediata (drop-in) e de zero-shot sobre sistemas multivector padrão, não requerendo modificações no índice, pré-processamento offline ou retreinamento do modelo. Experimentos em benchmarks textuais (BEIR) e multimodais (REAL-MM-RAG) mostram que o Col-Bandit preserva a fidelidade do ranqueamento enquanto reduz os FLOPs do MaxSim em até 5 vezes, indicando que a pontuação densa de interação tardia contém redundância substancial que pode ser identificada e podada eficientemente no tempo de consulta.

English

Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.