Revelando Armadilhas Ocultas e Navegando pela Próxima Geração de Busca por Similaridade Vetorial a partir de Visões Centradas na Tarefa

Resumo

A pesquisa por similaridade de vetores (VSS) em espaços de alta dimensão está a emergir rapidamente como uma funcionalidade central nos sistemas de base de dados de próxima geração para inúmeros serviços intensivos em dados – desde consultas de *embeddings* em modelos de linguagem de grande escala (LLMs), até à recuperação de informação semântica e motores de recomendação. No entanto, os *benchmarks* atuais avaliam a VSS principalmente na relação de compromisso entre recuperação (*recall*) e latência, face a uma verdade fundamental definida apenas por métricas de distância, negligenciando a forma como a qualidade da recuperação impacta, em última análise, as tarefas subsequentes. Esta desconexão pode induzir em erro tanto a investigação académica como a prática industrial. Apresentamos o Iceberg, um conjunto de *benchmarks* holístico para a avaliação de ponta a ponta de métodos de VSS em contextos de aplicação realistas. A partir de uma visão centrada na tarefa, o Iceberg revela o Funil de Perda de Informação, que identifica três fontes principais de degradação de desempenho de ponta a ponta: (1) Perda de *Embedding* durante a extração de características; (2) Uso Indevido de Métricas, onde as distâncias refletem pobremente a relevância para a tarefa; (3) Sensibilidade à Distribuição de Dados, destacando a robustez dos índices face a assimetrias e múltiplas modalidades. Para uma avaliação mais abrangente, o Iceberg abrange oito conjuntos de dados diversos em domínios-chave como classificação de imagens, reconhecimento facial, recuperação de texto e sistemas de recomendação. Cada conjunto de dados, variando entre 1M e 100M de vetores, inclui etiquetas e métricas de avaliação ricas e específicas da tarefa, permitindo avaliar os algoritmos de recuperação dentro do *pipeline* completo da aplicação, e não de forma isolada. O Iceberg avalia o desempenho de 13 métodos de VSS state-of-the-art e reclassifica-os com base em métricas de nível de aplicação, revelando desvios substanciais em relação às classificações tradicionais derivadas apenas de avaliações de recuperação-latência. Com base nestas perceções, definimos um conjunto de meta-características centradas na tarefa e derivamos uma árvore de decisão interpretável para orientar os profissionais na seleção e afinação de métodos de VSS para as suas cargas de trabalho específicas.

English

Vector Similarity Search (VSS) in high-dimensional spaces is rapidly emerging as core functionality in next-generation database systems for numerous data-intensive services -- from embedding lookups in large language models (LLMs), to semantic information retrieval and recommendation engines. Current benchmarks, however, evaluate VSS primarily on the recall-latency trade-off against a ground truth defined solely by distance metrics, neglecting how retrieval quality ultimately impacts downstream tasks. This disconnect can mislead both academic research and industrial practice. We present Iceberg, a holistic benchmark suite for end-to-end evaluation of VSS methods in realistic application contexts. From a task-centric view, Iceberg uncovers the Information Loss Funnel, which identifies three principal sources of end-to-end performance degradation: (1) Embedding Loss during feature extraction; (2) Metric Misuse, where distances poorly reflect task relevance; (3) Data Distribution Sensitivity, highlighting index robustness across skews and modalities. For a more comprehensive assessment, Iceberg spans eight diverse datasets across key domains such as image classification, face recognition, text retrieval, and recommendation systems. Each dataset, ranging from 1M to 100M vectors, includes rich, task-specific labels and evaluation metrics, enabling assessment of retrieval algorithms within the full application pipeline rather than in isolation. Iceberg benchmarks 13 state-of-the-art VSS methods and re-ranks them based on application-level metrics, revealing substantial deviations from traditional rankings derived purely from recall-latency evaluations. Building on these insights, we define a set of task-centric meta-features and derive an interpretable decision tree to guide practitioners in selecting and tuning VSS methods for their specific workloads.

Revelando Armadilhas Ocultas e Navegando pela Próxima Geração de Busca por Similaridade Vetorial a partir de Visões Centradas na Tarefa

Reveal Hidden Pitfalls and Navigate Next Generation of Vector Similarity Search from Task-Centric Views

Resumo

Support