Riduzione dell'impronta della ricerca multi-vettoriale con impatto minimo sulle prestazioni tramite raggruppamento dei token.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Autori: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Abstract
Negli ultimi anni, i metodi di recupero multi-vettore, guidati da ColBERT, sono diventati un approccio sempre più popolare per l'IR neurale. Memorizzando le rappresentazioni a livello di token anziché a livello di documento, questi metodi hanno dimostrato prestazioni di recupero molto elevate, specialmente in contesti fuori dominio. Tuttavia, i requisiti di archiviazione e di memoria necessari per memorizzare il grande numero di vettori associati rimangono un importante svantaggio, ostacolando l'adozione pratica. In questo articolo, introduciamo un semplice approccio di raggruppamento basato su token per ridurre in modo aggressivo il numero di vettori che devono essere memorizzati. Questo metodo può ridurre l'occupazione di spazio e memoria degli indici ColBERT del 50% con praticamente nessuna degradazione delle prestazioni di recupero. Questo metodo consente anche ulteriori riduzioni, riducendo il conteggio dei vettori del 66% al 75%, con una degradazione che rimane al di sotto del 5% sulla stragrande maggioranza dei dataset. È importante sottolineare che questo approccio non richiede alcuna modifica architetturale né elaborazione in fase di interrogazione, e può essere utilizzato come semplice integrazione durante l'indicizzazione con qualsiasi modello simile a ColBERT.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary