ChatPaper.aiChatPaper

Compressie van Multi-Vector Indexen in Elke Modaliteit

Multi-Vector Index Compression in Any Modality

February 24, 2026
Auteurs: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI

Samenvatting

Wij bestuderen efficiënte multi-vector-retrieval voor late interactie in elke modaliteit. Late interactie is uitgegroeid tot een dominant paradigma voor informatie-retrieval in tekst, afbeeldingen, visuele documenten en video's, maar de reken- en opslagkosten nemen lineair toe met de documentlengte, wat het kostbaar maakt voor corpora rijk aan afbeeldingen, video's en audio. Om deze beperking aan te pakken, onderzoeken we query-agnostische methoden voor het comprimeren van multi-vector-documentrepresentaties onder een constant vectorbudget. Wij introduceren vier benaderingen voor indexcompressie: sequentiegrootte-aanpassing, geheugentokens, hiërarchische pooling en een nieuwe aandacht-gestuurde clustering (AGC). AGC gebruikt een aandacht-gestuurd mechanisme om de meest semantisch saillante regio's van een document te identificeren als clustercentroïden en om tokenaggregatie te wegen. Door deze methoden te evalueren op retrievaltaken in tekst (BEIR), visuele documenten (ViDoRe) en video (MSR-VTT, MultiVENT 2.0), tonen we aan dat aandacht-gestuurde clustering consistent beter presteert dan andere geparametriseerde compressiemethoden (sequentiegrootte-aanpassing en geheugentokens), meer flexibiliteit biedt in indexgrootte dan niet-parametrische hiërarchische clustering, en competitieve of verbeterde prestaties bereikt vergeleken met een volledige, ongecomprimeerde index. De broncode is beschikbaar op: github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.
PDF222March 28, 2026