Compressione dell'Indice Multi-Vettoriale in Qualsiasi Modalità
Multi-Vector Index Compression in Any Modality
February 24, 2026
Autori: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI
Abstract
Studiamo metodi efficienti di recupero multi-vettoriale per l'interazione tardiva in qualsiasi modalità. L'interazione tardiva è emersa come paradigma dominante per il recupero delle informazioni in testi, immagini, documenti visivi e video, ma i suoi costi computazionali e di archiviazione crescono linearmente con la lunghezza del documento, rendendola onerosa per corpora ricchi di immagini, video e audio. Per affrontare questa limitazione, esploriamo metodi indipendenti dalla query per comprimere le rappresentazioni documentali multi-vettoriali con un budget vettoriale costante. Introduciamo quattro approcci per la compressione dell'indice: ridimensionamento della sequenza, token di memoria, pooling gerarchico e un nuovo clustering guidato dall'attenzione (AGC). L'AGC utilizza un meccanismo guidato dall'attenzione per identificare le regioni semanticamente più salienti di un documento come centroidi dei cluster e per ponderare l'aggregazione dei token. Valutando questi metodi su task di recupero che abbracciano testo (BEIR), documenti visivi (ViDoRe) e video (MSR-VTT, MultiVENT 2.0), dimostriamo che il clustering guidato dall'attenzione supera costantemente altri metodi di compressione parametrici (ridimensionamento della sequenza e token di memoria), offre una maggiore flessibilità nella dimensione dell'indice rispetto al clustering gerarchico non parametrico e raggiunge prestazioni competitive o migliorate rispetto a un indice completo non compresso. Il codice sorgente è disponibile all'indirizzo: github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.