Выявление скрытых подводных камней и навигация по новому поколению векторного поиска подобия с ориентацией на задачи
Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views
December 15, 2025
Авторы: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI
Аннотация
Поиск векторного сходства (VSS) в высокоразмерных пространствах быстро становится ключевой функциональностью в системах баз данных следующего поколения для многочисленных сервисов, интенсивно использующих данные — от поиска эмбеддингов в больших языковых моделях (LLM) до семантического информационного поиска и рекомендательных систем. Однако современные бенчмарки оценивают VSS в основном по компромиссу между полнотой и задержкой относительно эталонной истины, определяемой исключительно метриками расстояния, игнорируя то, как качество поиска в конечном счете влияет на последующие задачи. Этот разрыв может вводить в заблуждение как академические исследования, так и промышленную практику.
Мы представляем Iceberg — комплексный набор бенчмарков для сквозной оценки методов VSS в реалистичных контекстах применения. С точки зрения, ориентированной на задачу, Iceberg выявляет *Воронку потери информации*, которая определяет три основных источника сквозного снижения производительности: (1) *Потерю при эмбеддинге* на этапе извлечения признаков; (2) *Некорректное использование метрики*, когда расстояния плохо отражают релевантность для задачи; (3) *Чувствительность к распределению данных*, подчеркивающую устойчивость индекса к асимметриям и модальностям. Для более комплексной оценки Iceberg охватывает восемь разнообразных наборов данных из ключевых областей, таких как классификация изображений, распознавание лиц, текстовый поиск и рекомендательные системы. Каждый набор данных, объемом от 1 до 100 миллионов векторов, включает богатые, специфичные для задачи метки и метрики оценки, что позволяет анализировать алгоритмы поиска в рамках полного конвейера приложения, а не изолированно. Iceberg тестирует 13 современных методов VSS и переранжирует их на основе метрик уровня приложения, выявляя существенные отклонения от традиционных рейтингов, полученных исключительно на основе оценок полноты и задержки. Основываясь на этих инсайтах, мы определяем набор ориентированных на задачу мета-признаков и выводим интерпретируемое дерево решений, чтобы помочь практикам выбирать и настраивать методы VSS для их конкретных рабочих нагрузок.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice.
We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.