ChatPaper.aiChatPaper

Révéler les écueils cachés et naviguer dans la nouvelle génération de recherche de similarité vectorielle : perspectives centrées sur les tâches

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

December 15, 2025
papers.authors: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI

papers.abstract

La recherche de similarité vectorielle (VSS) dans les espaces de haute dimension émerge rapidement comme une fonctionnalité centrale des systèmes de base de données de nouvelle génération pour de nombreux services gourmands en données – allant de la recherche d'embeddings dans les grands modèles de langage (LLM), à la recherche d'information sémantique et aux moteurs de recommandation. Cependant, les benchmarks actuels évaluent la VSS principalement sur le compromis rappel-latence par rapport à une vérité terrain définie uniquement par des métriques de distance, négligeant la façon dont la qualité de la récupération impacte finalement les tâches en aval. Cette déconnexion peut induire en erreur tant la recherche académique que la pratique industrielle. Nous présentons Iceberg, une suite de benchmarks holistique pour l'évaluation en bout en bout des méthodes de VSS dans des contextes applicatifs réalistes. Adoptant une perspective centrée sur la tâche, Iceberg met en lumière l'*Entonnoir de Perte d'Information*, qui identifie trois sources principales de dégradation des performances de bout en bout : (1) la **Perte d'Embedding** lors de l'extraction des caractéristiques ; (2) le **Mauvais Usage des Métriques**, où les distances reflètent mal la pertinence pour la tâche ; (3) la **Sensibilité à la Distribution des Données**, soulignant la robustesse des index face aux asymétries et aux multimodalités. Pour une évaluation plus complète, Iceberg couvre huit jeux de données diversifiés dans des domaines clés tels que la classification d'images, la reconnaissance faciale, la recherche textuelle et les systèmes de recommandation. Chaque jeu de données, comprenant de 1 à 100 millions de vecteurs, inclut des étiquettes riches et spécifiques à la tâche ainsi que des métriques d'évaluation, permettant d'évaluer les algorithmes de recherche dans le pipeline applicatif complet plutôt que de manière isolée. Iceberg évalue 13 méthodes de VSS state-of-the-art et les re-classe sur la base de métriques au niveau applicatif, révélant des écarts substantiels par rapport aux classements traditionnels dérivés uniquement d'évaluations rappel-latence. S'appuyant sur ces insights, nous définissons un ensemble de méta-caractéristiques centrées sur la tâche et déduisons un arbre de décision interprétable pour guider les praticiens dans la sélection et le réglage des méthodes de VSS pour leurs charges de travail spécifiques.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.
PDF261December 18, 2025