Het Verminderen van de Afdruk van Multi-Vector Ophalen met Minimale Prestatie-impact via Token Pooling
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Auteurs: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Samenvatting
In de afgelopen jaren zijn multi-vector ophaalmethoden, aangevoerd door ColBERT, een steeds populairdere benadering geworden voor neurale IR. Door representaties op tokenniveau op te slaan in plaats van op documentniveau, hebben deze methoden een zeer sterke ophaalprestatie aangetoond, vooral in out-of-domain instellingen. De opslag- en geheugenvereisten die nodig zijn om het grote aantal bijbehorende vectoren op te slaan, blijven echter een belangrijk nadeel, waardoor praktische adoptie wordt belemmerd. In dit artikel introduceren we een eenvoudige op clustering gebaseerde token-poolingbenadering om agressief het aantal vectoren dat moet worden opgeslagen te verminderen. Met deze methode kan de ruimte- en geheugenfootprint van ColBERT-indexen met 50% worden verminderd met vrijwel geen degradatie van de ophaalprestatie. Deze methode maakt ook verdere verminderingen mogelijk, waarbij het aantal vectoren met 66% tot 75% wordt verminderd, waarbij de degradatie op de meeste datasets onder de 5% blijft. Belangrijk is dat deze benadering geen architecturale wijziging of verwerkingstijd van query's vereist en kan worden gebruikt als een eenvoudige plug-in tijdens indexering met elk ColBERT-achtig model.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary