Снижение следа многовекторного поиска с минимальным влиянием на производительность с помощью пула токенов
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling
September 23, 2024
Авторы: Benjamin Clavié, Antoine Chaffin, Griffin Adams
cs.AI
Аннотация
За последние несколько лет методы многовекторного поиска, возглавляемые ColBERT, стали все более популярным подходом к нейронному информационному поиску. Храня представления на уровне токенов, а не на уровне документов, эти методы продемонстрировали очень высокую производительность поиска, особенно вне предметной области. Однако необходимость в хранении большого количества связанных векторов остается важным недостатком, затрудняющим практическое применение. В данной статье мы представляем простой подход к кластеризации токенов для агрессивного сокращения количества векторов, которые необходимо хранить. Этот метод может уменьшить объем памяти, занимаемый индексами ColBERT, на 50% практически без ухудшения производительности поиска. Данный метод также позволяет дополнительно сократить количество векторов на 66%-75%, при этом ухудшение остается ниже 5% на большинстве наборов данных. Важно отметить, что данный подход не требует изменений в архитектуре или обработки запросов во время выполнения и может быть использован как простое внедрение во время индексации с любой моделью, подобной ColBERT.
English
Over the last few years, multi-vector retrieval methods, spearheaded by
ColBERT, have become an increasingly popular approach to Neural IR. By storing
representations at the token level rather than at the document level, these
methods have demonstrated very strong retrieval performance, especially in
out-of-domain settings. However, the storage and memory requirements necessary
to store the large number of associated vectors remain an important drawback,
hindering practical adoption. In this paper, we introduce a simple
clustering-based token pooling approach to aggressively reduce the number of
vectors that need to be stored. This method can reduce the space & memory
footprint of ColBERT indexes by 50% with virtually no retrieval performance
degradation. This method also allows for further reductions, reducing the
vector count by 66%-to-75% , with degradation remaining below 5% on a vast
majority of datasets. Importantly, this approach requires no architectural
change nor query-time processing, and can be used as a simple drop-in during
indexation with any ColBERT-like model.Summary
AI-Generated Summary