Reduzindo a Pegada da Recuperação Multi-Vetorial com Impacto Mínimo no Desempenho através da Agregação de Tokens.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Autores: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Resumo
Nos últimos anos, os métodos de recuperação multivetorial, liderados pelo ColBERT, tornaram-se uma abordagem cada vez mais popular para Recuperação de Informação Neural. Armazenando representações no nível do token em vez do nível do documento, esses métodos demonstraram um desempenho de recuperação muito forte, especialmente em configurações fora do domínio. No entanto, os requisitos de armazenamento e memória necessários para armazenar o grande número de vetores associados continuam sendo uma importante desvantagem, dificultando a adoção prática. Neste artigo, introduzimos uma abordagem simples de agrupamento de tokens para reduzir agressivamente o número de vetores que precisam ser armazenados. Este método pode reduzir a pegada de espaço e memória dos índices do ColBERT em 50% sem praticamente nenhuma degradação no desempenho de recuperação. Este método também permite reduções adicionais, diminuindo a contagem de vetores em 66% a 75%, com a degradação permanecendo abaixo de 5% na grande maioria dos conjuntos de dados. Importante ressaltar que esta abordagem não requer nenhuma mudança arquitetural nem processamento durante a consulta, podendo ser facilmente incorporada durante a indexação com qualquer modelo semelhante ao ColBERT.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary