Сжатие многомерных индексов для данных любой модальности
Multi-Vector Index Compression in Any Modality
February 24, 2026
Авторы: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI
Аннотация
Мы исследуем эффективную мультивекторную выборку для позднего взаимодействия в произвольных модальностях. Позднее взаимодействие стало доминирующей парадигмой для информационного поиска в тексте, изображениях, визуальных документах и видео, однако его вычислительная стоимость и затраты на хранение растут линейно с длиной документа, что делает его дорогостоящим для коллекций, насыщенных изображениями, видео и аудио. Для преодоления этого ограничения мы исследуем не зависящие от запроса методы сжатия мультивекторных представлений документов при фиксированном бюджете векторов. Мы представляем четыре подхода к сжатию индекса: изменение размера последовательности, токены памяти, иерархическая пулинга и новый метод кластеризации с управлением вниманием (Attention-Guided Clustering, AGC). AGC использует механизм, управляемый вниманием, для идентификации наиболее семантически значимых областей документа в качестве центроидов кластеров и для взвешивания агрегации токенов. Оценивая эти методы на задачах поиска в тексте (BEIR), визуальных документах (ViDoRe) и видео (MSR-VTT, MultiVENT 2.0), мы показываем, что кластеризация с управлением вниманием стабильно превосходит другие параметризованные методы сжатия (изменение размера последовательности и токены памяти), обеспечивает большую гибкость в размере индекса по сравнению с непараметрической иерархической кластеризацией и демонстрирует сопоставимую или улучшенную производительность по сравнению с полным, несжатым индексом. Исходный код доступен по адресу: github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.