Compressão de Índices Multi-Vetoriais em Qualquer Modalidade
Multi-Vector Index Compression in Any Modality
February 24, 2026
Autores: Hanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme
cs.AI
Resumo
Estudamos a recuperação eficiente de multivectores para interação tardia em qualquer modalidade. A interação tardia emergiu como um paradigma dominante para recuperação de informação em texto, imagens, documentos visuais e vídeos, mas os seus custos computacionais e de armazenamento crescem linearmente com o comprimento do documento, tornando-a dispendiosa para *corpora* ricos em imagens, vídeo e áudio. Para superar esta limitação, exploramos métodos independentes da consulta para comprimir representações documentais de multivectores sob um orçamento vectorial constante. Introduzimos quatro abordagens para compressão de índice: redimensionamento de sequência, *tokens* de memória, *pooling* hierárquico e um novo agrupamento guiado por atenção (*AGC*). O *AGC* utiliza um mecanismo guiado por atenção para identificar as regiões semanticamente mais salientes de um documento como centróides de agrupamento e para ponderar a agregação de *tokens*. Avaliando estes métodos em tarefas de recuperação abrangendo texto (*BEIR*), documentos visuais (*ViDoRe*) e vídeo (*MSR-VTT*, *MultiVENT 2.0*), mostramos que o agrupamento guiado por atenção supera consistentemente outros métodos de compressão parametrizados (redimensionamento de sequência e *tokens* de memória), oferece maior flexibilidade no tamanho do índice do que o agrupamento hierárquico não paramétrico e alcança desempenho competitivo ou melhorado em comparação com um índice completo não comprimido. O código-fonte está disponível em: github.com/hanxiangqin/omni-col-press.
English
We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.