Reduciendo la Huella de la Recuperación Multi-Vector con Impacto Mínimo en el Rendimiento a través de la Agrupación de Tokens.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Autores: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Resumen
En los últimos años, los métodos de recuperación multi-vector, liderados por ColBERT, se han convertido en un enfoque cada vez más popular para la Recuperación de Información Neuronal. Al almacenar representaciones a nivel de token en lugar de a nivel de documento, estos métodos han demostrado un rendimiento de recuperación muy sólido, especialmente en entornos fuera del dominio. Sin embargo, los requisitos de almacenamiento y memoria necesarios para almacenar el gran número de vectores asociados siguen siendo una importante desventaja, obstaculizando la adopción práctica. En este documento, presentamos un enfoque simple de agrupamiento basado en token pooling para reducir agresivamente el número de vectores que deben ser almacenados. Este método puede reducir la huella de espacio y memoria de los índices de ColBERT en un 50% prácticamente sin degradación del rendimiento de recuperación. Este método también permite reducciones adicionales, disminuyendo el recuento de vectores en un 66% al 75%, con una degradación que permanece por debajo del 5% en la gran mayoría de conjuntos de datos. Es importante destacar que este enfoque no requiere cambios arquitectónicos ni procesamiento en tiempo de consulta, y puede utilizarse como una simple incorporación durante la indexación con cualquier modelo similar a ColBERT.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary