Reduzierung des Footprints von Multi-Vektor-Abruf mit minimalem Leistungseinfluss durch Token-Pooling.
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Autoren: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Zusammenfassung
In den letzten Jahren sind Multi-Vektor-Abrufmethoden, angeführt von ColBERT, zu einem zunehmend beliebten Ansatz für neuronale Information Retrieval (IR) geworden. Durch die Speicherung von Repräsentationen auf Token-Ebene anstelle von Dokumentenebene haben diese Methoden eine sehr starke Abrufleistung gezeigt, insbesondere in Out-of-Domain-Einstellungen. Die Speicher- und Speicheranforderungen, die erforderlich sind, um die große Anzahl zugehöriger Vektoren zu speichern, bleiben jedoch ein wichtiger Nachteil, der die praktische Übernahme behindert. In diesem Papier stellen wir einen einfachen clusteringbasierten Token-Pooling-Ansatz vor, um die Anzahl der zu speichernden Vektoren aggressiv zu reduzieren. Diese Methode kann den Speicher- und Speicherplatzbedarf von ColBERT-Indizes um 50 % reduzieren, ohne dass die Abrufleistung praktisch beeinträchtigt wird. Diese Methode ermöglicht auch weitere Reduzierungen, wobei die Vektoranzahl um 66 % bis 75 % reduziert wird, wobei die Beeinträchtigung auf den meisten Datensätzen unter 5 % bleibt. Diese Herangehensweise erfordert keine architektonische Änderung oder Verarbeitung zur Abfragezeit und kann als einfacher Ersatz bei der Indizierung mit einem beliebigen ColBERT-ähnlichen Modell verwendet werden.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary