ChatPaper.aiChatPaper

Komprimierung von Multi-Vektor-Indizes in beliebigen Modalitäten

Multi-Vector Index Compression in Any Modality

February 24, 2026
Autoren: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI

Zusammenfassung

Wir untersuchen effiziente Multi-Vektor-Retrieval-Verfahren für Late Interaction in beliebigen Modalitäten. Late Interaction hat sich als dominantes Paradigma für Information Retrieval in Text, Bildern, visuellen Dokumenten und Videos etabliert, jedoch steigen deren Berechnungs- und Speicherkosten linear mit der Dokumentlänge, was es für bild-, video- und audioreiche Korpora kostspielig macht. Um diese Einschränkung zu adressieren, erforschen wir query-agnostische Methoden zur Komprimierung von Multi-Vektor-Dokumentrepräsentationen unter einem konstanten Vektor-Budget. Wir führen vier Ansätze zur Indexkomprimierung ein: Sequenzgrößenanpassung, Memory Tokens, hierarchisches Pooling und ein neuartiges aufmerksamkeitsgeführtes Clustering (AGC). AGC verwendet einen aufmerksamkeitsgesteuerten Mechanismus, um die semantisch bedeutsamsten Regionen eines Dokuments als Cluster-Zentroide zu identifizieren und die Token-Aggregation zu gewichten. Durch die Evaluierung dieser Methoden für Retrieval-Aufgaben in den Bereichen Text (BEIR), visuelle Dokumente (ViDoRe) und Video (MSR-VTT, MultiVENT 2.0) zeigen wir, dass aufmerksamkeitsgeführtes Clustering durchweg andere parametrisierte Komprimierungsmethoden (Sequenzgrößenanpassung und Memory Tokens) übertrifft, mehr Flexibilität bei der Indexgröße als nicht-parametrisches hierarchisches Clustering bietet und eine wettbewerbsfähige oder verbesserte Leistung im Vergleich zu einem vollständigen, unkomprimierten Index erzielt. Der Quellcode ist verfügbar unter: github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.
PDF222March 28, 2026