Compression d'Index Multi-Vecteurs dans Toute Modalité
Multi-Vector Index Compression in Any Modality
February 24, 2026
Auteurs: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI
Résumé
Nous étudions la récupération efficace de multi-vecteurs pour l'interaction tardive dans toute modalité. L'interaction tardive est devenue un paradigme dominant pour la recherche d'informations dans le texte, les images, les documents visuels et les vidéos, mais ses coûts de calcul et de stockage croissent linéairement avec la longueur des documents, ce qui la rend coûteuse pour les corpus riches en images, vidéos et contenu audio. Pour remédier à cette limitation, nous explorons des méthodes agnostiques à la requête pour compresser les représentations documentaires multi-vecteurs sous un budget vectoriel constant. Nous présentons quatre approches pour la compression d'index : le redimensionnement de séquence, les tokens de mémoire, le regroupement hiérarchique et un nouveau regroupement guidé par l'attention (AGC). L'AGC utilise un mécanisme guidé par l'attention pour identifier les régions sémantiquement les plus saillantes d'un document comme centroïdes de clusters et pour pondérer l'agrégation des tokens. En évaluant ces méthodes sur des tâches de récupération couvrant le texte (BEIR), les documents visuels (ViDoRe) et la vidéo (MSR-VTT, MultiVENT 2.0), nous montrons que le regroupement guidé par l'attention surpasse constamment les autres méthodes de compression paramétrées (redimensionnement de séquence et tokens de mémoire), offre une plus grande flexibilité dans la taille de l'index que le regroupement hiérarchique non paramétrique, et atteint des performances compétitives ou améliorées par rapport à un index complet non compressé. Le code source est disponible à l'adresse : github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.