ChatPaper.aiChatPaper

Col-Bandit: Обрезка во время запроса с нулевым обучением для поиска с поздним взаимодействием

Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

February 2, 2026
Авторы: Roi Pony, Adi Raz, Oshri Naparstek, Idan Friedman, Udi Barzelay
cs.AI

Аннотация

Многовекторные ретриверы с поздним взаимодействием, такие как ColBERT, достигают высочайшего качества поиска, однако их вычислительная стоимость на этапе выполнения запроса определяется в основном исчерпывающим вычислением токен-уровневых взаимодействий MaxSim для каждого кандидатного документа. Хотя аппроксимация позднего взаимодействия с помощью одноговекторных представлений снижает затраты, это часто приводит к значительной потере точности. Мы представляем Col-Bandit — алгоритм отсечения на этапе запроса, который снижает вычислительную нагрузку, рассматривая повторное ранжирование как задачу идентиции Top-K в конечной популяции. Col-Bandit поддерживает учитывающие неопределенность границы для частично наблюдаемых оценок документов и адаптивно раскрывает только те элементы MaxSim (документ, токен запроса), которые необходимы для определения лучших результатов в рамках статистических решающих границ с настраиваемым ослаблением. В отличие от подходов грубого зерна, которые отсекают целые документы или токены офлайн, Col-Bandit разрежает матрицу взаимодействия на лету. Алгоритм работает как zero-shot, подключаемый слой поверх стандартных многовекторных систем, не требуя модификации индекса, офлайн-предобработки или переобучения модели. Эксперименты на текстовых (BEIR) и мультимодальных (REAL-MM-RAG) бенчмарках показывают, что Col-Bandit сохраняет достоверность ранжирования, сокращая количество FLOP для вычислений MaxSim до 5 раз, что указывает на наличие значительной избыточности в плотном скоринге позднего взаимодействия, которую можно эффективно выявить и устранить на этапе запроса.
English
Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-K identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5times, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.
PDF12February 11, 2026