Compresión de Índices Multi-Vector en Cualquier Modalidad

Resumen

Estudiamos la recuperación eficiente de multivectores para la interacción tardía en cualquier modalidad. La interacción tardía ha surgido como un paradigma dominante para la recuperación de información en texto, imágenes, documentos visuales y vídeos, pero sus costes computacionales y de almacenamiento crecen linealmente con la longitud del documento, lo que la hace costosa para corpus ricos en imágenes, vídeo y audio. Para abordar esta limitación, exploramos métodos independientes de la consulta para comprimir representaciones documentales multivectoriales bajo un presupuesto vectorial constante. Introducimos cuatro enfoques para la compresión del índice: redimensionamiento de secuencias, tokens de memoria, agrupamiento jerárquico y un novedoso agrupamiento guiado por atención (AGC). AGC utiliza un mecanismo guiado por atención para identificar las regiones semánticamente más salientes de un documento como centroides de clúster y para ponderar la agregación de tokens. Evaluando estos métodos en tareas de recuperación que abarcan texto (BEIR), documentos visuales (ViDoRe) y vídeo (MSR-VTT, MultiVENT 2.0), demostramos que el agrupamiento guiado por atención supera consistentemente a otros métodos de compresión parametrizados (redimensionamiento de secuencias y tokens de memoria), ofrece mayor flexibilidad en el tamaño del índice que el agrupamiento jerárquico no paramétrico y logra un rendimiento competitivo o mejorado en comparación con un índice completo sin comprimir. El código fuente está disponible en: github.com/hanxiangqin/omni-col-press.

English

We study efficient multi-vector retrieval for late interaction in any modality. Late interaction has emerged as a dominant paradigm for information retrieval in text, images, visual documents, and videos, but its computation and storage costs grow linearly with document length, making it costly for image-, video-, and audio-rich corpora. To address this limitation, we explore query-agnostic methods for compressing multi-vector document representations under a constant vector budget. We introduce four approaches for index compression: sequence resizing, memory tokens, hierarchical pooling, and a novel attention-guided clustering (AGC). AGC uses an attention-guided mechanism to identify the most semantically salient regions of a document as cluster centroids and to weight token aggregation. Evaluating these methods on retrieval tasks spanning text (BEIR), visual-document (ViDoRe), and video (MSR-VTT, MultiVENT 2.0), we show that attention-guided clustering consistently outperforms other parameterized compression methods (sequence resizing and memory tokens), provides greater flexibility in index size than non-parametric hierarchical clustering, and achieves competitive or improved performance compared to a full, uncompressed index. The source code is available at: github.com/hanxiangqin/omni-col-press.

Compresión de Índices Multi-Vector en Cualquier Modalidad

Multi-Vector Index Compression in Any Modality

Resumen

Support