Svelare le Insidie Nascoste e Navigare la Prossima Generazione della Ricerca di Similarità Vettoriale da Prospettive Centrate sul Compito
Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views
December 15, 2025
Autori: Tingyang Chen, Cong Fu, Jiahua Wu, Haotian Wu, Hua Fan, Xiangyu Ke, Yunjun Gao, Yabo Ni, Anxiang Zeng
cs.AI
Abstract
La ricerca di similarità vettoriale (VSS) negli spazi ad alta dimensionalità sta emergendo rapidamente come funzionalità centrale nei sistemi di database di prossima generazione per numerosi servizi data-intensive, dalle ricerche di embedding nei grandi modelli linguistici (LLM), al recupero semantico dell'informazione e ai motori di raccomandazione. Gli attuali benchmark, tuttavia, valutano la VSS principalmente sul compromesso richiamo-latenza rispetto a una verità di base definita unicamente da metriche di distanza, trascurando come la qualità del retrieval influisca in ultima analisi sui task a valle. Questa disconnessione può trarre in inganno sia la ricerca accademica che la pratica industriale.
Presentiamo Iceberg, una suite di benchmark olistica per la valutazione end-to-end dei metodi VSS in contesti applicativi realistici. Da una prospettiva centrata sul compito, Iceberg rivela l'*Imbuto della Perdita di Informazione*, che identifica tre principali fonti di degradazione delle prestazioni end-to-end: (1) *Perdita di Embedding* durante l'estrazione delle caratteristiche; (2) *Uso Inappropriato della Metrica*, dove le distanze riflettono scarsamente la rilevanza per il compito; (3) *Sensibilità alla Distribuzione dei Dati*, che evidenzia la robustezza degli indici rispetto a skew e modalità diverse. Per una valutazione più completa, Iceberg comprende otto dataset diversificati in domini chiave come classificazione di immagini, riconoscimento facciale, recupero di testo e sistemi di raccomandazione. Ogni dataset, che varia da 1 a 100 milioni di vettori, include etichette e metriche di valutazione ricche e specifiche per il compito, consentendo la valutazione degli algoritmi di retrieval all'interno dell'intera pipeline applicativa piuttosto che in isolamento.
Iceberg mette a confronto 13 metodi VSS all'avanguardia e li riclassifica in base a metriche a livello applicativo, rivelando scostamenti sostanziali dalle classifiche tradizionali derivate puramente da valutazioni richiamo-latenza. Sulla base di queste intuizioni, definiamo un insieme di meta-caratteristiche centrate sul compito e deriviamo un albero decisionale interpretabile per guidare i professionisti nella selezione e nell'ottimizzazione dei metodi VSS per i loro carichi di lavoro specifici.
English
Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice.
We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.